25T00493

•

Vicente Riva Palacio

Wuario Carmen

25/3/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Arte

55.301 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO
FACULTAD DE MECÁNICA
CARRERA MANTENIMIENTO INDUSTRIAL

“COMPARACIÓN DE MODELOS DE APRENDIZAJE DE
MÁQUINA PARA LA DETECCIÓN DE FALLAS EN
TURBORREACTORES DE DOBLE FLUJO”

Trabajo de Integración Curricular
Tipo: Proyecto de Investigación

Presentado para optar al grado académico de:
INGENIERA EN MANTENIMIENTO INDUSTRIAL

AUTORA:
KARINA MISHELL LEMACHE CAIZA

Riobamba – Ecuador
2022

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO
FACULTAD DE MECÁNICA
CARRERA MANTENIMIENTO INDUSTRIAL

“COMPARACIÓN DE MODELOS DE APRENDIZAJE DE
MÁQUINA PARA LA DETECCIÓN DE FALLAS EN
TURBORREACTORES DE DOBLE FLUJO”

Trabajo de Integración Curricular
Tipo: Proyecto de Investigación

Presentado para optar al grado académico de:
INGENIERA EN MANTENIMIENTO INDUSTRIAL

AUTORA: KARINA MISHELL LEMACHE CAIZA
DIRECTOR: Ing. FÉLIX ANTONIO GARCÍA MORA

Riobamba – Ecuador
2022
ii
© 2022, Karina Mishell Lemache Caiza

Se autoriza la reproducción total o parcial, con fines académicos, por cualquier medio o
procedimiento, incluyendo cita bibliográfica del documento, siempre y cuando se reconozca el
Derecho de Autor.

iii
Yo, Karina Mishell Lemache Caiza, declaro que el presente Trabajo de Integración Curricular
es de mi autoría y los resultados del mismo son auténticos. Los textos en el documento que
provienen de otras fuentes están debidamente citados y referenciados.

Como autora asumo la responsabilidad legal y académica de los contenidos de este Trabajo de
Integración Curricular; el patrimonio intelectual pertenece a la Escuela Superior Politécnica de
Chimborazo.

Riobamba, 24 de noviembre de 2022

Karina Mishell Lemache Caiza
060502569-1

iv
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO
FACULTAD DE MECÁNICA
CARRERA MANTENIMIENTO INDUSTRIAL

El Tribunal del Trabajo de Integración Curricular certifica que: El Trabajo de Integración
Curricular; Tipo: Proyecto de Investigación, “COMPARACIÓN DE MODELOS DE
APRENDIZAJE DE MÁQUINA PARA LA DETECCIÓN DE FALLAS EN
TURBORREACTORES DE DOBLE FLUJO”, realizado por la señorita: KARINA
MISHELL LEMACHE CAIZA, ha sido minuciosamente revisado por los Miembros del
Tribunal del Trabajo de Integración Curricular, el mismo que cumple con los requisitos
científicos, técnicos, legales, en tal virtud el Tribunal Autoriza su presentación.

FECHA

Ing. Marco Antonio Ordoñez Vinan 2022-11-24
PRESIDENTE DEL TRIBUNAL

Ing. Félix Antonio García Mora 2022-11-24
DIRECTOR DE TRABAJO DE
INTEGRACIÓN CURRICULAR

Ing. Vanessa Lorena Valverde González 2022-11-24
MIEMBRO DE TRIBUNAL

v
DEDICATORIA

Durante el viaje de mi vida he desarrollado una gran variedad de destrezas y habilidades que
nunca imagine desarrollar, también entendí que los éxitos alcanzados se disfrutan más en
compañía, la misma que te ayuda a seguir adelante cuando las cosas se complican, por esto
quiero dedicar este trabajo de integración curricular a mis padres, de manera especial a mi
madre, pues sin su apoyo incondicional no lo habría logrado, ella inculcó en mí la
responsabilidad y deseos de superación, en ella tengo mi modelo a seguir pues sus virtudes y su
gran corazón me llevan admirarla cada día más.

Karina

vi
AGRADECIMIENTO

Gracias a mis padres por ser los principales promotores de mis sueños, por confiar y creer en
mis expectativas, por sus consejos, valores y principios que siempre me han inculcado, pese a
las adversidades e inconvenientes que se presentaron ellos siempre me esperaban con los brazos
abiertos.

A mis docentes por haber compartido sus conocimientos a lo largo de mi preparación
profesional, de manera especial a el ingeniero Félix García y la ingeniera Vanessa Valverde,
quienes hicieron posible la culminación de este trabajo.

A todos mis amigos que me han brindado un gran apoyo moral y humano, necesarios en los
momentos difíciles de mi vida personal e incluso profesional, gracias infinitas por toda su ayuda
y buena voluntad.

Karina

vii
TABLA DE CONTENIDO

ÍNDICE DE TABLAS ............................................................................................................ xiii
ÍNDICE DE FIGURAS ....................................................................................................... xiiiiii
INDICE DE GRÁFICOS ..................................................................................................... xvxv
ÍNDICE DE ABREVIATURAS ........................................................................................... xvii
ÍNDICE DE ANEXOS .......................................................................................................... xvii
RESUMEN ........................................................................................................................... xviii
SUMMARY ..........................................................................................................................xixix
INTRODUCCIÓN ..................................................................................................................... 1

CAPITULO I

1. MARCO TÉORICO REFERENCIAL...................................................................... 4
1.1. Turborreactores de doble flujo .................................................................................. 4
1.2. Partes de un turborreactor ......................................................................................... 5
1.2.1. Fan ............................................................................................................................... 5
1.2.2. Compresor .................................................................................................................... 5
1.2.3. Turbina ......................................................................................................................... 5
1.2.4. Cámara de combustión ................................................................................................ 6
1.2.5. Difusor ......................................................................................................................... 6
1.3. Ciclo Brayton .............................................................................................................. 7
1.4. Detección de fallas en turborreactores de doble flujo .............................................. 7
1.5. Inteligencia artificial (IA) ........................................................................................... 7
1.6. Machine Learning (ML) ............................................................................................. 8
1.2.6. Tipos de aprendizaje..................................................................................................... 8
1.2.6.1. Aprendizaje supervisado ............................................................................................... 8
1.2.6.2. Aprendizaje no supervisado .......................................................................................... 9
1.2.6.3. Aprendizaje por refuerzo .............................................................................................. 9
1.7. Pasos para construir un modelode Machine Learning ............................................ 9
1.8. Modelos de clasificación ........................................................................................... 10
1.2.7. Modelos lineales ......................................................................................................... 10
1.2.8. Modelos de árbol ........................................................................................................ 10
1.2.9. Redes neuronales ....................................................................................................... 10
1.2.10. Random Forest............................................................................................................ 11
1.2.10.1. Explicación matemática .............................................................................................. 12
viii
1.2.10.2. Hiperparámetros ......................................................................................................... 13
1.2.11. Estrategias de ajuste de hiperparámetros .................................................................. 14
1.2.12. Support Vector Machine ............................................................................................ 14
1.2.12.1. Caso linealmente separable ........................................................................................ 15
1.2.12.2. Clasificación no lineal ................................................................................................ 16
1.2.13. XGBoost ..................................................................................................................... 17
1.2.13.1. Expresión matemática ................................................................................................. 18
1.2.14. Gradient Boosting ...................................................................................................... 19
1.2.14.1. Expresión matemática ................................................................................................. 19
1.9. Redes Neuronales LSTM .......................................................................................... 20
1.10. Python ........................................................................................................................ 20
1.2.15. Librerías de Python .................................................................................................... 21
1.2.15.1. Pandas ........................................................................................................................ 21
1.2.15.2. Matplotlib ................................................................................................................... 21
1.2.15.3. Scikit-learn.................................................................................................................. 21
1.2.15.4. Numpy ......................................................................................................................... 22
1.2.16. Jupyter notebooks ...................................................................................................... 22
1.11. Matriz de confusión .................................................................................................. 22
1.12. Métricas de evaluación ............................................................................................. 23
1.2.17. Exactitud .................................................................................................................... 23
1.2.18. Sensibilidad ................................................................................................................ 23
1.2.19. Precisión ..................................................................................................................... 24
1.2.20. F1-Score ..................................................................................................................... 24
1.13. Curva característica operativa del receptor (ROC) ............................................... 24
1.2.21. Área bajo la curva (AUC) .......................................................................................... 24
1.14. Overfitting y underfitting ......................................................................................... 25
1.15. Validación cruzada ................................................................................................... 25

CAPÍTULO II

2. MARCO METODOLÓGICO .................................................................................. 27
2.1. Colección de datos ..................................................................................................... 27
2.2. Descripción de los datos ............................................................................................ 27
2.3. Preprocesamiento de datos ....................................................................................... 29
2.3.1. Librerías utilizadas para la elaboración del modelo de aprendizaje de máquina ..... 29
2.3.2. Lectura del conjunto de datos .................................................................................... 29
2.3.3. Asignación de nombres a las columnas ..................................................................... 31
ix
2.3.4. Análisis exploratorio .................................................................................................. 31
2.3.5. Limpieza de datos ....................................................................................................... 32
2.3.6. Análisis de la distribución de probabilidad de densidad ........................................... 34
2.3.7. Análisis del diagrama de caja del conjunto de datos ................................................. 35
2.3.8. Matriz de correlación de Pearson .............................................................................. 36
2.3.9. Sobre-muestreo (Oversampling) ................................................................................ 36
2.3.9.1. Sobre-muestreo del conjunto de datos de entrenamiento ............................................ 36
2.3.9.2. Sobre-muestreo del conjunto de datos de prueba........................................................ 38
2.3.10. División del conjunto de datos para entrenamiento y prueba de los modelos .......... 39
2.3.10.1. División del conjunto de entrenamiento ...................................................................... 39
2.3.10.2. División del conjunto de prueba ................................................................................. 41
2.4. Extracción de características ................................................................................... 42
2.5. Entrenamiento del modelo ....................................................................................... 42
2.5.1. Random Forest ........................................................................................................... 42
2.5.1.1. Optimización de hiperparámetros ............................................................................... 42
2.5.1.2. Creación de un bosque aleatorio para la optimización de hiperparámetros .............. 42
2.5.1.3. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 43
2.5.1.4. Entrenamiento de la búsqueda aleatoria .................................................................... 43
2.5.2. XGBoost ..................................................................................................................... 44
2.5.2.1. Optimización de hiperparámetros ............................................................................... 44
2.5.2.2. Creación de un aumento de gradiente para la optimización de hiperparámetros ....... 44
2.5.2.3. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 44
2.5.2.4. Entrenamiento de la búsqueda aleatoria ....................................................................45
2.5.3. Gradient Boosting ...................................................................................................... 45
2.5.3.1. Optimización de hiperparámetros ............................................................................... 45
2.5.3.2. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 46
2.5.3.3. Entrenamiento de la búsqueda aleatoria .................................................................... 46
2.5.4. Optimización de XGBoost utilizando los hiperparámetros de Gradient Boosting .... 47
2.5.4.1. Optimización de hiperparámetros ............................................................................... 47
2.5.4.2. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 47
2.5.4.3. Entrenamiento de la búsqueda aleatoria .................................................................... 48
2.6. Predicción de la vida útil restante (RUL) ................................................................ 48

CAPÍTULO III

3. MARCO DE RESULTADOS Y DISCUSIÓN DE LOS RESULTADOS ............. 50
3.1. Exploración de los resultados de entrenamiento .................................................... 50
x
3.1.1. Análisis de los resultados de la matriz de confusión ................................................. 50
3.1.1.1. Random Forest............................................................................................................ 50
3.1.1.2. XGBoost ...................................................................................................................... 53
3.1.1.3. Gradient Boosting ....................................................................................................... 56
3.1.1.4. Optimización de XGBoost utilizando los hiperparámetros del Gradient Boosting ..... 59
3.1.1.5. Support Vector Machine ............................................................................................. 60
3.1.2. Análisis de los resultados obtenidos en las curvas de aprendizaje ............................ 61
3.1.2.1. Random Forest............................................................................................................ 62
3.1.2.2. XGBoost ...................................................................................................................... 62
3.1.2.3. Gradient Boosting ....................................................................................................... 63
3.1.2.4. Optimización de XGBoost con la optimización de hiperparámetros de Gradient
Boosting. ..................................................................................................................... 64
3.1.2.5. Support Vector Machine ............................................................................................. 64
3.1.3. Análisis de los resultados obtenidos en la curva ROC .............................................. 65
3.1.3.1. Random Forest............................................................................................................ 65
3.1.3.2. XGBoost ...................................................................................................................... 66
3.1.3.3. Gradient Boosting ....................................................................................................... 66
3.1.3.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting ................ 67
3.1.3.5. Support Vector Machine ............................................................................................. 67
3.2. Análisis de los resultados del conjunto de datos de prueba ................................... 68
3.2.1. Análisis de los resultados de la matriz de confusión ................................................. 68
3.2.1.1. Random Forest............................................................................................................ 68
3.2.1.2. XGBoost ...................................................................................................................... 71
3.2.1.3. Gradient Boosting ....................................................................................................... 74
3.2.1.4. Optimización de XGBoost utilizando los hiperparámetros del Gradient Boosting ..... 77
3.2.1.5. Support Vector Machine ............................................................................................. 78
3.2.2. Análisis de los resultados obtenidos en las curvas de aprendizaje ............................ 79
3.2.2.1. Random Forest............................................................................................................ 79
3.2.2.2. XGBoost ...................................................................................................................... 80
3.2.2.3. Gradient Boosting ....................................................................................................... 81
3.2.2.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting. ............... 81
3.2.2.5. Support Vector Machine ............................................................................................. 82
3.2.3. Análisis de los resultados obtenidos en la curva ROC .............................................. 83
3.2.3.1. Random Forest............................................................................................................ 83
3.2.3.2. XGBoost ...................................................................................................................... 83
3.2.3.3. Gradient Boosting ....................................................................................................... 84
3.2.3.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting ................ 84
xi
3.2.3.5. Support Vector Machine ............................................................................................. 85
3.3. Comparación de los modelos de aprendizaje de máquina ..................................... 85
3.3.1. Conjunto de entrenamiento ....................................................................................... 85
3.3.2. Conjunto de prueba .................................................................................................... 86
3.4. Constatación de la hipótesis ..................................................................................... 87
3.5. Predicción de la vida útil restante ............................................................................ 88
CONCLUSIONES .................................................................................................................... 91
RECOMENDACIONES .......................................................................................................... 93
BIBLIOGRAFÍA
ANEXOS

xii
ÍNDICE DE TABLAS

Tabla 1-1: Principales hiperparámetros en Random Forest .................................................. 14
Tabla 2-1: Kernels más utilizados por el algoritmo SVM. ................................................... 15
Tabla 3-1: Matriz de confusión. ........................................................................................... 23
Tabla 1-2: Mejores hiperparámetros de Random Forest ....................................................... 44
Tabla 2-2: Mejores hiperparámetros de XGBoost ................................................................ 45
Tabla 3-2: Mejores hiperparámetros. .................................................................................... 47
Tabla 4-2: Mejores hiperparámetros. .................................................................................... 48
Tabla 5-2: Capas utilizadas para el ajuste de parámetros del modelo LSTM. ....................... 49
Tabla 1-3: Resultados de la matriz de confusión con parámetros por defecto………...……51
Tabla 2-3: Resultados de la matriz de confusión con la optimizaciónde hiperparámetros….52
Tabla 3-3: Resultados de la matriz de confusión obtenida con los parámetros por defecto...54
Tabla 4-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…55
Tabla 5-3: Resultados de la matriz de confusión con parámetros por defecto……………...57
Tabla 6-3: Resultados de la matriz de confusión con la optimización de hiperparámetros. 58
Tabla 7-3: Resultados de la matriz de confusión con parámetros por defecto………………60
Tabla 8-3: Resultados de la matriz de confusión con parámetros por defecto………………61
Tabla 9-3: Resultados de la matriz de confusión con parámetros por defecto………………69
Tabla 10-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…70
Tabla 11-3: Resultados de la matriz de confusión obtenida con los parámetros por defecto…72
Tabla 12-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…73
Tabla 13-3: Resultados de la matriz de confusión con parámetros por defecto………………75
Tabla 14-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…76
Tabla 15-3: Resultados de la matriz de confusión con parámetros por defecto………………78
Tabla 16-3: Resultados de la matriz de confusión con parámetros por defecto………………79
Tabla 17-3: Metricas de evaluación de algoritmos ejecutados por defecto…………………...85
Tabla 18-3: Metricas de evaluación de algoritmos hiperparámetrizados……………………..86
Tabla 19-3: Metricas de evaluación de algoritmos ejecutados por defecto…………………...86
Tabla 20-3: Metricas de evaluación de algoritmos hiperparámetrizados………………….….87
Tabla 21-3: Valores de RMSE…………………………………………………………….….89

xiii
ÍNDICE DE FIGURAS

Figura 1-1: Ejemplo de un turborreactor de doble flujo .......................................................... 4
Figura 2-1: Esquema funcional de un turborreactor ................................................................ 4
Figura 3-1: Compresor axial. (a) Rotor estator y (b) vista de un compresor axial ................... 5
Figura 4-1: Cámaras de combustión: (a) anular, (b) tubular y (c) tubular-anular. ................... 6
Figura 5-1: Tipos de difusores: (a) subsónico y (b) supersónico. ............................................ 6
Figura 6-1: Componentes del motor a reacción y estados termodinámicos. ............................ 7
Figura 7-1: Técnicas de Machine Learning. ............................................................................ 8
Figura 8-1: Arquitectura de una red neuronal convolucional profunda. ................................ 11
Figura 9-1: Random Forest Classifier ................................................................................... 11
Figura 10-1: Algoritmo Random Forest ................................................................................. 12
Figura 11-1: Hiperplanos de separación ................................................................................. 15
Figura 12-1: Hiperplanos de separación. ................................................................................ 16
Figura 13-1: Hiperplanos de separación. ................................................................................ 17
Figura 14-1: Algoritmo XGBoost........................................................................................... 18
Figura 15-1: Algoritmo XGBoost........................................................................................... 19
Figura 16-1: Estructura de una red LSTM .............................................................................. 20
Figura 17-1: Logo de la aplicación de Python. ....................................................................... 21
Figura 18-1: Jupyter notebook................................................................................................ 22
Figura 19-1: Relación entre curvas ROC. ............................................................................... 24
Figura 20-1: Gráfica del área bajo la curva ............................................................................ 25
Figura 21-1: Validación cruzada sobre 100 muestras. ............................................................ 26
Figura 1-2: Repositorio de datos de PCoE de la NASA. ....................................................... 27
Figura 2-2: Conjunto de datos de simulación de degradación del motor turbofan. ................ 28
Figura 3-2: Conjunto de datos de entrenamiento. .................................................................. 28
Figura 4-2: Conjunto de datos de prueba. .............................................................................. 28
Figura 5-2: Conjunto de vector de valores reales de vida útil restante (RUL). ...................... 29
Figura 6-2: Distribución de probabilidad de densidad de entrenamiento y prueba. ............... 34
Figura 7-2: Diagrama de caja del conjunto de datos de entrenamiento y prueba. .................. 35
Figura 8-2: Matriz de correlación de Pearson. ....................................................................... 36
Figura 1-3: Matriz de confusión clasificador Random Forest……………...……...……..50
Figura 2-3: Matriz de confusión parámetros optimizados RF………………………..….51
Figura 3-3: Matriz de confusión del clasificador XGBoost………………………...…....53
Figura 4-3: Matriz de confusión del clasificador……..………………………………….54
Figura 5-3: Matriz de confusión de Gradient Boosting………………………………….56
xiv
Figura 6-3: Matriz de confusión del clasificador optimizado……………………………….57
Figura 7-3: Matriz de confusión del clasificador……………………………………………59
Figura 8-3: Matriz de confusión clasificador SVM…………………………………………60
Figura 9-3: Curva de aprendizaje RandomForest…………………………………………...62
Figura 10-3: Curva de aprendizaje XGBoost………………………………………………...63
Figura 11-3: Curva de aprendizaje Gradient Boosting……………………………………….63
Figura 12-3: Curva de aprendizaje del modelo………………………………………………64
Figura 13-3: Curva de aprendizaje del modelo……………………………………………....65
Figura 14-3: Curva de ROC Random Forest…………………………………………………65
Figura 15-3: Curva ROC XGBoost…………………………………………………………..66
Figura 16-3: Curva ROC Gradient Boosting…………………………………………………66
Figura 17-3: Curva ROC modelo entrenado…………………………………………………67
Figura 18-3: Curva ROC conjunto de entrenamiento algoritmo SVM………………………67
Figura 19-3: Matriz de confusión clasificador Random Forest………………………………68
Figura 20-3: Matriz de confusión Random Forest…………………………………………...69
Figura 21-3: Matriz de confusión del clasificador XGBoost………………………………...71
Figura 22-3: Matriz de confusión del clasificador…………………………………………...72
Figura 23-3: Matriz de confusión del clasificador……………………………………………74
Figura 24-3: Matriz de confusión Gradient Boosting………………………………………...75
Figura 25-3: Matriz de confusión del clasificador……………………………………………77
Figura 26-3: Matriz de confusión del clasificador SVM……………………………………..78
Figura 27-3: Curva de aprendizaje RandomForest…………………………………...………80
Figura 28-3: Curva de aprendizaje XGBoost………………………………………………...80
Figura 29-3: Curva de aprendizaje Gradient Boosting……………………………………….81
Figura 30-3: Curva de aprendizaje…………………………………………………………...82
Figura 31-3: Curva de aprendizaje clasificador SVM………………………………………..82
Figura 32-3: Curva ROC de Random Forest…………………………………………………83
Figura 33-3: Curva ROC XGBoost…………………………………………………………..83
Figura 34-3: Curva ROC Gradient Boosting…………………………………………………84
Figura 35-3: Curva ROC del modelo entrenado……………………………………………...84
Figura 36-3: Curva ROC del modelo entrenado……………………………………………...85
Figura 37-3: Constatación de la hipótesis……………………………………………………88

xv
INDICE DE GRÁFICOS

Gráfico 1-1: Proceso de construcciónde un modelo de Machine Learning. ............................. 10
Gráfico 2-1: Overfitting y underfitting ..................................................................................... 25
Gráfico 1-2: Conjunto de datos de entrenamiento .................................................................... 29
Gráfico 2-2: Lectura y comprensión del conjunto de datos. ..................................................... 30
Gráfico 3-2: Conjunto de datos RUL ....................................................................................... 30
Gráfico 4-2: Distribución de datos para cada grupo de trabajo. ............................................... 31
Gráfico 5-2: Información del conjunto de datos de entrenamiento y prueba ............................ 32
Gráfico 6-2: Información del conjunto de datos RUL. ............................................................. 32
Gráfico 7-2: Búsqueda de valores faltantes o nulos. ................................................................ 33
Gráfico 8-2: Búsqueda de datos duplicados. ............................................................................ 33
Gráfico 9-2: Búsqueda de datos duplicados. ............................................................................ 33
Gráfico 10-2: Datos de la variable objetivo del conjunto de entrenamiento............................... 37
Gráfico 11-2: Sobremuestreo de la variable objetivo. ................................................................ 37
Gráfico 12-2: Conjunto de datos antes y despues del sobre-muestreo. ...................................... 38
Gráfico 13-2: Datos de la variable objetivo del conjunto de prueba. ......................................... 38
Gráfico 14-2: Sobremuestreo de la variable objetivo. ................................................................ 39
Gráfico 15-2: Conjunto de datos antes y despues del sobre-muestreo. ...................................... 39
Gráfico 16-2: División de datos para entrenamiento y prueba. .................................................. 40
Gráfico 17-2: Valores de entrenamiento y prueba del modelo. .................................................. 40
Gráfico 18-2: División de datos para entrenamiento y prueba. .................................................. 41
Gráfico 19-2: Datos para entrenamiento y prueba del modelo ................................................... 41
Gráfico 1-3: Comparación de los valores obtenidos de la matriz de confusión……………....53
Gráfico 2-3: Comparación de los valores obtenidos de la matriz de confusión………………56
Gráfico 3-3: Comparación de los valores obtenidos de la matriz de confusión………………59
Gráfico 4-3: Comparación de los valores obtenidos de la matriz de confusión………………71
Gráfico 5-3: Comparación de los valores obtenidos de la matriz de confusión………………74
Gráfico 6-3: Comparación de los valores obtenidos de la matriz de confusión……………....77
Gráfico 7-3: Relación entre RUL predicho y RUL real………………………………………89

xvi
ÍNDICE DE ABREVIATURAS

AUC Área bajo la curva
C-MAPSS Comercial Modular Aero-Propulsion System Simulation
EP Elemento de proceso
FP Falso Positivo
FN Falso Negativo
GBDT Árboles de decisión potenciados por gradientes
IA: Inteligencia Artificial
LSTM: Long Short Term Memory o Memoria a corto y largo plazo
ML: Machine Learning o aprendizaje de máquina
PCoE Prognostics Center of Excellence
RNN Recurrent Neural Network o redes neuronales recurrentes
ROC Receiver Operating Characteristic o característica operativa del receptor
RUL Tiempo de vida útil remanente
SVM Support Vector Machine o máquina de vectores de soporte
TRA Ángulo de resolución del acelerador
VP Verdadero Positivo
VN Verdadero Negativo

xvii
ÍNDICE DE ANEXOS

ANEXO A: CÓDIGO DE PROGRAMACIÓN

xviii
RESUMEN

El objetivo de este trabajo fue comparar los modelos de aprendizaje de máquina para la
detección de fallas en turborreactores de doble flujo. La solución aplicada en la predicción se
realizó mediante el análisis de los datos, obtenidos en las mediciones del equipo cuyo
aprendizaje automático es una tecnología que predice los resultados en función de un modelo
entrenándolo con datos y analizando su comportamiento de salida, con el fin de pronosticar
fallas en las máquinas antes de que estas ocurran; entonces se realizó un estudio comparativo
del conjunto existente de algoritmos de aprendizaje automático para anunciar las fallas y la vida
útil remanente del motor. Los modelos se elaboraron en base a los conjuntos de datos del motor
turboventilador extraído del Repositorio del Centro de Excelencia de Pronósticos de la NASA
debido a sus tres configuraciones operativas y 21 columnas de sensores. En un conjunto de
entrenamiento se construyó un modelo y se verificó con un conjunto de datos de prueba, para
ello se seleccionó 5 algoritmos: Random Forest, XGBoost, Gradient Boosting, SVM y un
modelo hibrido creado como resultado de la unión de los modelos XGBoost y Gradient
Boosting. Los resultados obtenidos se compararon con datos reales para verificar la precisión de
cada algoritmo, resultando el algoritmo Random Forest como el mejor modelo ejecutado con
parámetros normales y optimizados con un f1-score de 99.949% y 99.99% respectivamente.
Finalmente, se descubrió que en la base de datos no es posible realizar una extracción de
características utilizando aprendizaje automático debido a su peculiaridad en las condiciones
operativas. También es importante mencionar que el modelo SVM no se fue ejecutado con
hiperparámetros. Es recomendable utilizar métodos de comparación de aprendizaje profundo
por su precisión al momento de clasificar los datos reduciendo drásticamente la carga
computacional al momento de ejecutar el modelo.

Palabras clave: <MODELOS DE APRENDIZAJE> <MANTENIMIENTO BASADO EN LOS
DATOS> <TURBORREACTORES DE DOBLE FLUJO> <APRENDIZAJE AUTOMÁTICO>
<RANDOM FOREST>.

0098-DBRA-UPT-2023

xix
SUMMARY

The objective of this work was to compare machine learning models for the detection of failures
in double flow turbojets. The applied solution in the prediction was performed by analyzing the
data, obtained in the measurements of the equipment whose machine learning is a technology
that predicts the results based on a model by training it with data and analyzing its output
behavior. In order to predict machine failures before they occur; then a comparative study of the
existing set of machine learning algorithms to announce failures and the remaining useful life of
the engine was performed. The models were built based on turbofan engine data sets extracted
from the NASA Prediction Center of Excellence Forecasting Repository due to its three
operational configurations and 21 sensor columns. In a training set a model was built and
verified with a test data set, for this purpose 5 algorithms were selected: Random Forest,
XGBoost, Gradient Boosting, SVM and a hybrid model created as a result of the union of the
XGBoost and Gradient Boosting models. The results obtained were compared with real data to
verify the accuracy of each algorithm, resulting in the Random Forest algorithm as the best
model executed with normal and optimized parameters with an f1-score of 99.949% and
99.99% respectively. Finally, it was found that in the database it is not possible to perform
feature extraction using machine learning due to its peculiarity in the operating conditions. It is
also important to mention that the SVM model was not run with hyperparameters. It is advisable
to use deep learning comparison methods because of their accuracy when classifying the data,
drastically reducing the computational load when running the model.

Keywords: <LARNING MODELS> <DATA-BASED MAINTENANCE> <DUAL FLOW
TURBOJET> <MACHINE LEARNING> <RANDOM FOREST>.Lic. Sandra Paulina Porras Pumalema
C.I. 0603357062

1
INTRODUCCIÓN

La evolución de la tecnología conjuntamente con la inteligencia artificial y el desarrollo de la
industria 4.0 crean nuevos retos y técnicas en las diferentes aplicaciones importantes como en
los tipos de mantenimiento preventivo y correctivo, para ello es importante basarse en dos
enfoques principales del mantenimiento tales como la detección de fallas y el tiempo de vida
útil en una máquina; entonces el desarrollo como tal basados en el aprendizaje de maquina o
comúnmente llamado Machine Learning facilita el trabajo al analizar un sinnúmero de datos y
determinar el resultado o falla origen con respecto a los problemas.

La propuesta metodológica detallada a continuación busca comparar de manera exacta la
predicción de distintos modelos de aprendizaje de maquina o Machine Learning, permitiendo
así supervisar su clasificación con la finalidad de determinar cuál es el correcto modelo de
aprendizaje en turborreactores de doble flujo con respecto al análisis de fallas y vida útil.

Para el contexto del trabajo se utiliza un turborreactor de doble flujo utilizado en sistemas de
propulsión de aviones, conociendo que su trabajo es mediante, entrada, compresión, combustión
y escape de gases; se conoce que en la NASA ha empleado un sistema mediante Machine
Learning para análisis de falla en motores constituido de un sinnúmero de sensores que
permitan recolectar datos.

El uso de la Inteligencia Artificial (IA) hoy en día es un tema muy importante debido a su
capacidad de análisis de datos más profundos mediante redes neuronales; cuando los algoritmos
son de autoaprendizaje, los datos tienen la capacidad de volver a propiedad intelectual y al
involucrarse con la aplicación de Machine Learning permitiendo que los sistemas tengan la
capacidad de aprender y mejorar automáticamente sin la necesidad de algún algoritmo de
programación.

Justificación y actualidad

La manufactura inteligente y la innovación de la industria 4.0 a nivel mundial forman parte de la
transformación tecnológica para crear sistemas de gestión y formas de hacer negocios, que
permitan optimizar los procesos de fabricación, alcanzar una mayor flexibilidad y eficiencia, así
como responder de forma oportuna a las necesidades de su mercado (Ynzunza et al. 2017, p. 33-45).

La industria 4.0 está constituida de tecnologías basadas en la inteligencia artificial que permiten
2
al ser humano analizar grandes cantidades de información (Big data). Estas tecnologías están
siendo aprovechadas por el ser humano para beneficiarse de mejoras significativas en casi todas
las situaciones, pero también obliga al ser humano a prevenir y analizar las posibles desventajas
(Rouhiainen, 2018).

La necesidad de monitorear constantemente el estado de la propiedad física y la presencia de
una gran cantidad de datos industriales, refleja que aplicar Machine Learning es la mejor opción
para lograr un diagnóstico automático y confiable acerca del estado de las máquinas, además la
disponibilidad de estrategias de mantenimiento causadas por máquinas le permitirá obtener
grandes ventajas en el rendimiento, seguridad, optimización y toma de decisiones; así mismo el
reconocimiento automático de patrones es muy deseable ya que a través de una clasificación
automática se puede detectar e identificar fallos de tal forma que el personal logre tomar una
resolución de mantenimiento sin la necesidad de un técnico (Chen, et al., 2019).

En nuestro país se ha llevado a cabo varias investigaciones utilizando métodos de aprendizaje
automático en distintas áreas, no obstante, pocos estudios se enfocan a la industria del
mantenimiento. Por esta razón, la Escuela Superior Politécnica de Chimborazo carece de
estudios relacionados con las aplicaciones de aprendizaje automático enfocado al
mantenimiento industrial; es por ello que se ofrece un marco innovador y moderno para mejorar
la calidad del mantenimiento industrial en la industria del mantenimiento.

Planteamiento del problema

Actualmente la industria aérea tanto en sus aviones comerciales como militares utilizan
turbofanes o turbohélices por sus excelentes funciones al momento de la puesta en marcha , una
vez que se han abarcado y cubierto las zonas de vuelo atmosférico tanto en altitud y velocidad,
se puede imaginar qué sucederá en el caso de que el avión presente complicaciones debido a
una falla dentro del monitoreo constante de un turbofán ocasionando problemas de rendimiento,
accidentes aéreos e incluso se puede llegar a perder vidas humanas. Debido a esto surge la
necesidad de contar con técnicas de monitoreo y diagnostico automático, que sea confiable y
brinde gran precisión.

Hipótesis

Utilizando varios métodos de Machine Learning se detectan fallas en turborreactores de doble
flujo.

3
Variable dependiente

Detección de fallas

Variable independiente

• Matriz de confusión.
• Precisión
• Exactitud

Objetivos

Objetivo general

Comparar los modelos de aprendizaje de máquina para la detección de fallas en turborreactores
de doble flujo.

Objetivos específicos

• Realizar el preprocesamiento de datos de fallas en turborreactores de doble flujo.

• Dividir los datos de fallas en turborreactores de doble flujo para entrenamiento y
prueba de los modelos.

• Determinar las características de extracción estadísticas de los modelos.

• Diseñar y comprobar la precisión de los algoritmos para la detección de fallas en
turborreactores de doble flujo.

4
CAPITULO I

1. MARCO TÉORICO Y MARCO CONCEPTUAL

1.1. Turborreactores de doble flujo

Un motor turborreactor de las aeronaves es un sistema aerodinámico extremadamente complejo
que funciona en entornos difíciles, consta de una unidad de admisión de aire, un soplador, un
generador de aire y una tobera de escape. En el turbofán, una parte activa de la turbina se utiliza
para impulsar el ventilador. En general, los motores turbofanes son más económicos y eficientes
que los jets subsónicos. El diámetro del ventilador también está limitado aerodinámicamente en
lo que respecta a la compresión (Contreras 2015).

Figura 1-1: Ejemplo de un turborreactor de doble flujo
Fuente: (Contreras, 2015)

Figura 2-1: Esquema funcional de un turborreactor
Fuente: (Franchini et al., 2016)
5
1.2. Partes de un turborreactor

1.2.1. Fan

Sanches (2021, p.5), en su contexto define al fan como un flujo másico de aire suministrado al
motor por un ventilador, entonces el flujo de aire primario es comprimido por compresores de
baja y alta presión, mientras que el flujo de aire secundario corresponde a un flujo de aire más
alto a través del ventilador y alrededor del núcleo del motor; cabe señalar que el líquido
primario que pasa por el núcleo se mezcla con el combustible de combustión.

1.2.2. Compresor

De acuerdo con Suárez (2021), se conoce que un compresor se integra al motor cuando la presión
a la entrada del aire aumenta considerablemente. Los denominados compresores axiales forman
parte de dichos motores cuentan con distintas fases con un par de series que constan de una serie
de etapas y a su vez, constan de dos series de álabes. El primer para de alabes es giratorio,
diseñados aerodinámicamente para aumentar el flujo de aire y su energía cinética. La segunda
serie, llamada estator, son álabes de configuración aerodinámica, reducen la componente
cinética del flujo, restringiendo el movimiento y aumentando la componente estática, es decir, la
presión del aire.

Figura 3-1: Compresor axial. (a) Rotor estator y (b) vista de un compresor axial
Fuente: (Franchini, et al., 2016).

1.2.3. Turbina

Según Sanches (2021, p. 5), menciona a la turbina como el principal elemento derecolección de
energía necesaria para arrancar el compresor y el ventilador, las etapas están separadas por
turbinas de alta y baja presión pero cada etapa tiene su propio eje, con la turbina de baja presión
impulsando el ventilador y el compresor de baja presión, y la turbina de alta presión impulsando
6
el compresor de alta capacidad, al expandirse el gas combustible absorbe energía haciendo que
la turbina gire a alta velocidad, generando así la energía necesaria para accionar el eje y su
respectivo ventilador y/o compresor.

1.2.4. Cámara de combustión

Montazeri de acuerdo con varios autores (2019, p. 102), concuerdan que las cámaras de
combustión están formadas por tubos de llama en donde se produce la combustión, el
combustible automatizado y vaporizado se inyecta automáticamente a través de un inyector
dado que la combustión se realiza en régimen subsónico y el flujo de aire tras el compresor se
caracteriza por elevadas velocidades, a la entrada del tubo de llama se sitúa un difusor de
corriente que aumenta la presión y disminuye la velocidad.

Figura 4-1: Cámaras de combustión: (a) anular, (b) tubular y (c) tubular-anular.
Fuente: (Franchini et al., 2016)

1.2.5. Difusor

Franchini y López (2016, p. 286), consideran que el flujo de aire actúa sobre el turborreactor para
ralentizar el flujo de corriente y evitar desprendimiento y uniformidad de la corriente de entrada
al compresor, la deceleración actual de corriente es necesaria porque el número de Mach de un
compresor axial suele estar alrededor de 0,4; mientras que los turbofanes normalmente
funcionan con un número de Mach de 0,7.

Figura 5-1: Tipos de difusores: (a) subsónico y (b) supersónico.
Fuente: (Franchini et al., 2016)
7

1.3. Ciclo Brayton

El ciclo ideal de Brayton consta de cuatro procesos termodinámicos, dos de los cuales son
isobáricos (o presión constante) y los otros dos son isentrópicos (o entropía constante), estos dos
procesos isotrópicos también son procesos adiabáticos, es decir, no entra ni sale materia ni calor
del líquido durante el proceso (Falcão 2018, p. 13, 14).

Figura 6-1: Componentes del motor a reacción y estados termodinámicos.
Fuente: (Falcão, 2018)

1.4. Detección de fallas en turborreactores de doble flujo

Actualmente los turborreactores se desarrollan como controladores electrónicos para mejorar el
rendimiento y eficiencia del motor, equipando así el sistema de control con múltiples sensores.
Los motores, componentes electrónicos, entre otros, son vulnerables y expuestos a fallas; debido
a estas vulnerabilidades, se realizan diseños más robustos que sean capaces de soportar dichas
fallas y mal funcionamiento de uno o varios componentes (Bae 2021).

En los últimos años, la búsqueda de fallas en los motores turbofán se ha estudiado y utilizado
métodos para dar solución a dichas fallas, obteniendo así dos métodos de estudio que se dividen
en: métodos basados en modelos y métodos basados en datos. El primer método brinda la
mayoría de soluciones a los problemas de monitoreo en tiempo real, sin embargo, este método
requiere modelos matemáticos de alta fidelidad de los motores turboventiladores, que rara vez
están disponibles en el mercado; muchos métodos basados en datos utilizan modelos
estadísticos y de extracción de características y aprendizaje automático (Sun, et al., 2020).

1.5. Inteligencia artificial (IA)

Rouhiainen (2018), establece que IA es la facultad de las máquinas por emplear algoritmos,
8
estudiar los datos y poner en práctica lo que han aprendido para tomar decisiones de manera
autónoma; a diferencia de los humanos los dispositivos basados en IA no necesitan un descanso
y pueden analizar grandes cantidades de información a la vez. Otra ventaja de la IA es que
permitirá que las máquinas y los robots realicen tareas que los humanos encuentran difíciles o
peligrosas, permitiendo al ser humano hacer cosas que antes creían imposibles.

1.6. Machine Learning (ML)

Según Zhang (2020), el aprendizaje automático es un subconjunto de inteligencia artificial que
construye modelos matemáticos a partir de datos de muestra para hacer predicciones o tomar
decisiones sin necesidad de formular un programa explícito para realizar una tarea, en el
aprendizaje automático, las redes neuronales, las máquinas de vectores auxiliares y las
computadoras evolutivas, generalmente se obtiene un conjunto de entrenamiento y un conjunto
de prueba, para construir un regresor o clasificador aprendiendo de un conjunto de
entrenamiento y luego evaluando el rendimiento del regresor o clasificador en el conjunto de
prueba.

Figura 7-1: Técnicas de Machine Learning.
Fuente: (Cruz 2021, p. 25).

1.2.6. Tipos de aprendizaje

1.2.6.1. Aprendizaje supervisado

Este tipo de aprendizaje enseña al algoritmo cómo realizar su trabajo con un conjunto de datos
9
clasificados bajo una cierta apreciación o idea para encontrar patrones que puedan aplicarse en
un análisis y producir una salida que ya se conoce (Manrique, 2020).

1.2.6.2. Aprendizaje no supervisado

Al contrario del algoritmo supervisado, los algoritmos pertenecientes a este bloque se encargan
de encontrar grupos de casos en el conjunto de entrenamiento en función del valor de la variable
independiente, lo que significa que los casos en un mismo grupo son similares y los casos en
diferentes grupos sean lo más diferente posible (Padilla 2020).

1.2.6.3. Aprendizaje por refuerzo

En este tipo de aprendizaje el algoritmo estudia el mundo que le rodea y analiza el ingreso de
información que adquiere del exterior; como resultado, el algoritmo memoriza por medio de
prueba-error (Cruz 2021).

1.7. Pasos para construir un modelo de Machine Learning

Según Manrique (2020, p. 589), para construir un modelo de ML, se necesita de seis importantes
pasos como es la colección de datos, es el proceso de recopilación y medición de información
de la base de datos; la descripción de datos es el primer paso para tener una visión amplia de los
datos para identificar áreas o patrones que se deben profundizar.

El preprocesamiento de datos inicia con la importación de las librerías, lectura del conjunto de
datos, análisis exploratorio y limpieza de datos. Antes de dividir los datos para entrenar y probar
el modelo se realiza un paso muy importante en todo análisis de datos que es la extracción de
características, consiste en darle la vuelta a los datos para poder visualizarlos desde otra
perspectiva. Entrenar el algoritmo consiste en dividir el conjunto de datos para entrenamiento y
prueba del modelo de aprendizaje automático, el porcentaje más utilizado en la división de datos
es de 75% del total de datos para entrenamiento y el 25% restante para prueba, con los
resultados obtenidos se procede a evaluar el modelo utilizando métricas de evaluación, de esta
forma se verifica si el modelo se ajusta o no al conjunto de datos.

La metodología utilizada en el desarrollo de este proyecto utiliza dicho procedimiento y se
detalla de mejor manera en el capítulo II.

Gráfico 1-1: Proceso de construcción de un modelo de Machine
Learning.
Fuente: (Manrique, 2020, p.589)
Realizado por: Lemache, K., 2022.

1.8. Modelos de clasificación

1.2.7. Modelos lineales

Intentan encontrar una línea de "ajuste" a la nube de puntos disponible, en este punto se
destacan de los modelos conocidos y utilizados, como la regresión lineal (también conocida
como regresión de mínimos cuadrados), regresión logística (adaptación lineal a problemas de
análisis; ambos modelos están "sobre ajustados" lo que significa que hacen "demasiados"
ajustes a los datos existentes, lo que pone en riesgo los nuevos datos (Sandoval 2018).

1.2.8. Modelos de árbol

Zhou et al., (2021), menciona que un árbolde decisiones es una herramienta de aprendizaje
automático no paramétrico que se utiliza para crear modelos predictivos a partir de sus datos. Se
obtienen dividiendo recursivamente el espacio de características en particiones axiales y
ajustando una función predictiva simple, a menudo constante, en cada partición, un ejemplo de
este modelo es Random Forest o bosque aleatorio por su traducción en español.

1.2.9. Redes neuronales

Colección de
datos
Preprocesamie
nto de datos
Exploración de
datos
Se entrena el
algoritmo
Evaluación de
los algoritmos
Uso del modelo
11
En un texto detallado por, Avila en conjunto con varios autoes (2020), mencionan que las redes
neuronales son similares en función a las neuronas biológicas en sus funciones más comunes,
llamados "procesador de elementos lógicos" y elemento de proceso (PE). Cada PE (neurona)
tiene elementos de entrada (dendritas) que recogen los pulsos de entrada integrados en el cuerpo
de los elementos de procesamiento y producen respuestas o resultados. Las salidas de PE
(axones) se pueden vincular a las entradas de otras neuronas artificiales a través de la sinapsis.

Figura 8-1: Arquitectura de una red neuronal convolucional profunda.
Fuente: (Pinto 2021, p. 21)

1.2.10. Random Forest

Introducidos por Leo Breiman y Adele Cutler en 2001, los bosques aleatorios son una colección
de árboles de clasificación y regresión, utilizan divisiones binarias en variables predictoras para
determinar las predicciones de resultados, se construyen utilizando conjuntos de datos de
entrenamiento seleccionados al azar y subconjuntos aleatorios de variables predictoras para
modelar los resultados (Linn et al., 2019).

Figura 9-1: Random Forest Classifier
12
Fuente: (Linn et al., 2019).
Para Espinoza (2020), los resultados obtenidos se combinan a fin de obtener un modelo único y
robusto, cada árbol generado contiene un grupo de observaciones aleatorias (elegidas mediante
bootstrap, que es una técnica estadística para obtener muestras de una población donde una
observación se puede considerar en más de una muestra). Las observaciones no estimadas en los
árboles (también conocidas como “Out of the bag”) se utilizan para validar el modelo.

Figura 10-1: Algoritmo Random Forest
Fuente: (Espinoza, 2020, p.3)

1.2.10.1. Explicación matemática

En la investigación realizada por Biau y Scornet (2016),menciona que, para simplificar, solo se
considera el problema de clasificación binaria. En este planteamiento la respuesta aleatoria Y
toma valores en {0, 1} y, dado X, uno tiene que predecir el valor de Y. Un clasificador, mn es
una función medible de Borel de X y Dn que predice la etiqueta Y a partir de X y Dn. En este
planteamiento, se dice que el clasificador mn es consistente si la probabilidad de error es:

L(mn)= P[mn(X)≠Y]n→∞𝐿, (1)

donde L es el error del clasificador óptimo de Bayes:

m(x)= {
1 si P[Y=1 | X=x >P[Y=0 | X=x
0 de lo contrario
} (2)

El clasificador se obtiene mediante un voto entre los árboles de clasificación
(Biau, et al., 2016).
,

mM,n(x; θ1, ..., θM, Dn)= {
1 si
1
M
∑ mn(x; θj, Dn) >1/2
M
j=1
0 de lo contrario
} (3)

sí una hoja representa la región A, entonces un clasificador de árbol aleatorio toma la forma
simple

mn(x; θj, Dn)= {
1 si ∑ 1xi∈A, Yi>
i∈Dn(θj)
∑ 1xi∈A, Yi=0,x ϵ A
i∈Dn(θj)
0 de lo contrario
} (4)

donde Dn (θj), en cada hoja se toma un voto mayoritario sobre todos (Xi, Yi) para los que Xi
está en la misma región. Los empates se rompen, por convención, a favor de la clase 0. El
algoritmo 1 se puede adaptar fácilmente para realizar una clasificación en dos clases sin
modificar el criterio CART-split. Para ver esto, Y ∈ {0, 1} y para cualquier celda A genérica,
sea p
0, n
(A) (resp., p
1, n
(A)) la probabilidad empírica, dado un punto de datos en una celda A, de
que tenga la etiqueta 0 (resp., etiqueta 1). Al notar que Y̅A= p1, n(A) = 1- p0, n(A), el criterio de
clasificación CART-split dice, para cualquier (j, z) ∈ CA,

Lclase, n(j, z)= p0, n(A) p1, n(A) -
Nn(AL)
Nn(A)
× p
0, n
(AL) p1, n(AL) -
Nn(AR)
Nn(A)
× p
0, n
(AR) p1, n(AR)
(5)

Este criterio se basa en la llamada medida de impureza de Gini 2p
0, n
(A)p
1, n
(A), para clasificar
un punto de datos que cae en la celda A, se usa la regla que asigna un punto, uniformemente
seleccionado de {Xi ∈ A: (Xi, Yi) ∈ Dn}, para etiquetar ℓ con probabilidad pl, n(A), para j ∈ {0,
1}. La probabilidad estimada de que el artículo tenga realmente una etiqueta ℓ es p
l, n
(A). Por lo
tanto, el error estimado bajo esta regla es el índice de Gini 2p
0, n
(A) p
1, n
(A), y es recomendado
establecer nodesize = 1 y mtry =√p, para problemas de clasificación (Biau y Scornet 2016).

1.2.10.2. Hiperparámetros

Probst (2019), en su investigación deduce que los parámetros de clasificación deben ser
optimizados antes de ejecutar el entrenamiento del algoritmo, además existen hiperparámetros
que deben configurarse previamente; como el total de variables a examinar en cada fracción de
un Random Forest, la cifra total de estímulos en el Gradient Boosting, el kernel en SVM.

1.2.11. Estrategias de ajuste de hiperparámetros

En la disertación realizada por Probst (2019), una de las estrategias más idóneas para la selección
de hiperparámetros es la validación cruzada, consiste en comparar distintos hiperparámetros en
un tiempo muy reducido. Otra estrategia más sencilla es la búsqueda de cuadrícula, define una
cantidad finita de valores y posteriormente evalúa todas las combinaciones posibles de
hiperparámetros. Por último, se encuentra la búsqueda aleatoria, consiste en la extracción
aleatoria de hiperparámetros utilizando la distribución uniforme.

Tabla 1-1: Principales hiperparámetros en Random Forest
Hiperparámetros Descripción
n_estimators Número de árboles de decisión
Criterion Determina si un nodo continúa dividiéndose
min_samples_split Número mínimo de muestras necesarias para dividir un nodo
max_depth
Profundidad máxima del árbol, por defecto, hasta que las muestras en
todas las hojas sean muestras puras o el número de muestras sea menor
que min_samples_split
max_features
Número máximo de características involucradas cuando se divide un
nodo.
min_samples_leaf Número mínimo de muestras de nodos por hoja.
Bootstrap Método para extraer la muestra de datos (con o sin reemplazo).
n_jobs
Números paralelos, más trabajos pueden acelerar la construcción del
árbol
random_state Objeto aleatorio
Verbose
Si se muestra el registro de construcción del submodelo, 0 significa que
no se muestra, 1 significa salida ocasional y más de 1 significa que cada
submodelo genera salidas.
Fuente: (Li, et al, 2018)
Realizado por: Lemache, K., 2022.

1.2.12. Support Vector Machine

Introducido por primera vez a fines de la década de 1970 por Vapnik, es uno de los algoritmos
de aprendizaje basados en kernel, que tiene como objetivo principal resolver un problema de
optimización cuadrática convexa para obtener una solución óptima global en teoría y, por lo
tanto, superar el dilema extremo local de otras técnicas de aprendizaje automático (Sheykhmousa
15
et al. 2020).

Figura 11-1: Hiperplanos de separación
Fuente: (Cervantes, 2020)

Sheykhmousa y varios autores (2020), especifican que el algoritmo SVM en su forma básica, es
un clasificador binario lineal, el cuál determina un hiperplano óptimo para dividir el conjunto de
datos en un número discreto de clases preestablecidas aplicando los datos de entrenamiento que
se encuentran cerca del espacio de características del límite de decisiónóptimo, actuando como
vectores de soporte; estas muestras son los datos más difíciles de clasificar y generan un
impacto directo en la ubicación óptima del límite de decisión. Este proceso iterativo de construir
un clasificador con un límite de decisión óptimo se describe como el proceso de aprendizaje.

Tabla 2-1: Kernels más utilizados por el algoritmo SVM.
Kernel Expresión matemática Parámetros
Polinomial K(Xi, Xj)= (<Xi, Xj>+1)
r
r ∈ ℤ+
Función básica
radial gaussiana
(RBF)
K(Xi, Xj)= exp
‖ Xi, Xj‖
r
2σ2
σ
Linear K(Xi, Xj)= <Xi, Xj>+1= Xi
T Xj+1 Ninguno
Tangente
hiperbólica
K(Xi, Xj)= tanh(<Xi, Xj>β+b) β, b
Fuente: (Cervantes, 2020)
Realizado por: Lemache, K., 2022.

1.2.12.1. Caso linealmente separable

En la investigación realizada por Cervantes en conjunto con distintos autores (2020), donde
define que para entrenar el algoritmo se requiere varios ejemplos y cada uno consta de un vector
de entrada xi y la etiqueta asociada yi, expresado de la siguiente manera:

16
(x1,y2), (x2,y2), …, (xn,yn) (6)
es decir, X= {xi,yi}i=1
n
donde xi ∈ R
d y y
i
∈ (+1, -1). Por la visualización, se considera el caso de
una entrada bidimensional, x ∈ R2. El nivel de decisión, es decir, el hiperplano que separa el
espacio de entrada está definido por la ecuación wTxi+b=0.
Se optimiza el margen geométrico estableciendo el margen funcional kappai= 1 (también
llamado hiperplano canónico), por lo tanto, el clasificador lineal y
i
= 1,

(w*x+)+b= 1
(w*x-)-b= 1
(7)

Estos se pueden combinar en un conjunto de desigualdades:

y
i
=(〈w*xi〉+b)≥1 ∀ i (8)

El margen geométrico de x+ y x- es:

γ
i
=
1
2
(〈
w
‖w‖
*x+〉 - 〈
w
‖w‖
*x-〉)
=
1
2‖w‖
(〈w*x+〉-〈w*x-〉)
=
1
‖w‖

(9)

Figura 12-1:Hiperplanos de separación.
Fuente: (Cervantes, 2020)

1.2.12.2. Clasificación no lineal

Cuando las muestras no se pueden separar de forma lineal la máquina de soporte de vectores,
extiende su habilidad de distribución a través de kernel de mapeo de gran dimensión, facultando
la clasificación lineal. El kernel 𝑘(𝑥, 𝑦) es el producto interno entre las muestras donde
17
𝑘(𝑥, 𝑦) = 〈φ(x), φ(y)〉 (Lei, 2017, p.123).

Por medio de una función kernel la optimización en forma dual se expresa mediante la siguiente
formula:
Max L(α)= ∑ αi-
1
2
M
i=1
∑ αiαj
M
i,j=0
y
i
y
j
k(xjxj
) (10)
s.t. {
0 ≤ αi ≤ C, i=1,2,…,M
∑ αi
M
i=1
y
i
=0
} (11)

La función de decisión se denota como:
f(x)=sing( ∑ αi
M
i,j=1
y
i
k(x𝑖xj)+b) (12)

Figura 13-1: Hiperplanos de separación.
Fuente: (Cervantes, 2020)

1.2.13. XGBoost

Qui en conjunto con varios autores (2021), mencionan que el aumento del gradiente extremo
(XGBoost) es un algoritmo que desempeñar un papel importante en la mejora del gradiente. Se
basa en la teoría de la clasificación y el árbol de regresión, convirtiéndose en un método muy
efectivo para resolver problemas de clasificación y regresión, puede simbolizar una biblioteca
de computación suave que combina el nuevo algoritmo con métodos de árboles de decisión
potenciados por gradientes (GBDT). Después de la optimización, la función objetivo de
XGBoost consta de dos partes diferentes, que representan la desviación del modelo y el término
regular para evitar el ajuste excesivo.

Figura 14-1: Algoritmo XGBoost
Fuente: (Qui, 2021)

1.2.13.1. Expresión matemática

Si se tiene un conjunto de datos que tiene m características y un número de n ejemplos, se tiene
Ds= {(xi,yi): i=1 … n, xi∈ R
m, y
i
∈ R}. Donde ŷ
i
es el resultado de un modelo de árbol
expresada en la siguiente ecuación (Ahmed et al. 2021):

Ȧi= ∅(xi)= ∑ fk(
K
k=1
xi), fk ∈ F (13)

K representa el número de árboles y fk representa el número de k-ésimo árbol para resolver la
ecuación 13, minimizando la perdida y el objetivo de regularización.

L(∅)= ∑ l(
i
y
i
, Ȧi)+ ∑ Ω(fk)
k
(14)

El valor l es la función de pérdida, mientras que Ω indica que tan complejo es el modelo:

Ω(fk)= γT+
1
2
λ‖w‖2 (15)

T, representa el número de hojas del árbol y w es el peso de cada hoja.

L(t)= ∑ l(
i=1
y
i
, Ȧi
(t-1)
+ft(xi))+ Ω(ft) (16)

Lsplit=
1
2
[
(∑ g
ii∈lL
)
2
(∑ hii∈lL )+λ
+
(∑ g
ii∈lL
)
2
(∑ hii∈lL )+λ
-
(∑ g
ii∈lL
)
2
(∑ hii∈lL )+λ
] -γ (17)
g
i
= δ
A(t-1)
(y
i
, Ȧi
(t-1)
)
hi= δA(t-1)
2 (y
i
, Ȧi
(t-1)
)

19
1.2.14. Gradient Boosting

En la investigación realizada por Duan et al. (2021), estos autores exponen que, al ajustar un
árbol de decisión al gradiente el algoritmo divide los datos de tal forma que se aliñe con el eje y
cada fracción está asociada con un nodo de hoja del árbol y se hace lo más homogéneo posible
en su variable de respuesta; el valor de predicción del nodo de hoja se configura para que sea el
componente aditivo de las predicciones que minimiza la pérdida al máximo, esto es equivalente
a hacer una "búsqueda de línea".

Figura 15-1: Algoritmo XGBoost
Fuente: (Duan et al. 2021).

1.2.14.1. Expresión matemática

Dado un conjunto de datos de entrenamiento D= {xi, yi}1
N
, se genera una aproximación F̂(x) de
la función F(x) se obtiene:

Fm(x)= Fm-1(x)+ρmhm(x) (18)

ρ
m
es el peso de la mth función hm(x), creando una aproximación iterativa a partir de una
aproximación constante de F(x) se define la siguiente ecuación:

Fo(x)= arg min
α
∑ L(y
i
, α)
N
i= 1
(19)
(ρ
m
hm(x))= arg min
ρ, h
∑ L(y
i
, Fm-1(xi) + ρh(xi))
N
i= 1
(20)

Sin embargo, este parámetro en vez de resolver la optimización del algoritmo, el hm puede
provocar una optimización en descenso del gradiente, es por eso que cada modelo se entrena
20
con un nuevo conjunto de datos D= {xi, rmi}1
N, donde rmi se expresa (Bentéjac, et al,2020).

rmi= [
δL(y
i
, F(xi)
δF(x)
]
F(x)= Fm-1(xi)
(21)

ρ
m
se calcula resolviendo un problema de optimización de búsqueda de línea.

1.9. Redes Neuronales LSTM

Las redes LSTM presentan una diversidad de aplicaciones, reducen las dificultades de memoria
a largo plazo, su función primordial se basa en una celda de red recurrente básica, su estructura
cuenta con una entrada (Ct-1) y una salida (Ct), que se asemeja a una banda transportadora a la
que se pueden añadir o retirar datos de la memoria de la red. Para ello utiliza tres compuertas
que permiten eliminar y añadir elementos de la memoria y a su vez permite crear un estado
oculto (Herrera, 2020, p. 9).

Figura 16-1: Estructura de una red LSTM
Fuente: (Herrera 2020, p. 9)

Cada compuerta consta de tres elementos: una red neuronal, una función sigmoidal y un
elemento multiplicador. La variable (Xt) representa a la información de entrada, la variable (ht-
1) indica la salida anterior y finalmente la variable (ht) señala la nueva salida (Herrera, 2020, p. 9).

1.10. Python

Es un lenguaje de programación interpretado como multiparadigma que tiene una gran
comunidad de desarrolladores y una variedad muy amplia y rica de librerías de apoyo, demás,
utiliza un lenguaje muy estable y ampliamente empleado en ámbitos de desarrollo para ciencia
de datos y computación, lo que propicia que se encuentren con más probabilidad las
herramientas que puedan servirnos, ofrece un modo interactivo ideal para depurar código que
21
está realizando gran cantidad de cálculos con volúmenes importantes de datos (Layme et al., 2022).

Figura 17-1: Logo de la aplicación de Python.
Fuente: (Layme et al., 2022)

1.2.15. Librerías de Python

1.2.15.1. Pandas

Es una herramienta de manipulación de datos de alto nivel desarrollada por Wes McKinney,
está construido con el paquete Numpy y su estructura de datos clave es llamada el DataFrame,
permite almacenar y manipular datos tabulados en filasde observaciones y columnas de
variables (Layme et al. 2022).

1.2.15.2. Matplotlib

Es una biblioteca de trazado 2D de Python que produce figuras de calidad de publicación en una
variedad de formatos impresos y entornos interactivos en todas las plataformas, puede usar en
scripts de Python, servidores de aplicaciones web y seis juegos de herramientas de interfaz
gráfica de usuario. Matplotlib intenta hacer las cosas fáciles y las difíciles posibles. Puede
generar gráficos, histogramas, espectros de potencia, gráficos de barras, gráficos de error,
gráficos de dispersión, etc., con solo unas pocas líneas de código (Layme et al. 2022).

1.2.15.3. Scikit-learn

Scikit-learn anteriormente también conocido como sklearnes una biblioteca de Machine
Learning de software libre para el lenguaje de programación Python, cuenta con varios
algoritmos de clasificación, regresión y agrupamiento que incluyen SVM, Random Forest,
Gradient Boosting y está diseñado para interoperar con las bibliotecas numéricas y científicas de
22
Python (Layme et al. 2022).

1.2.15.4. Numpy

Es una librería de Python la cual está diseñada para el cálculo numérico y el análisis de datos,
tiene incorporada una clase de arrays u objetos, que permiten representar datos en varias
dimensiones y funciones las cuales facilitan su manipulación (Cruz 2021, p. 28).

1.2.16. Jupyter notebooks

Jupyter Notebook es una herramienta avanzada basada en navegador que funciona como un
cuaderno de laboratorio diseñado para admitir flujos de trabajo, código, datos y análisis que
definen el proceso de búsqueda. Estos cuadernos se pueden almacenar en línea, su importancia
se basa en su interacción con muchos aspectos de la infraestructura de la biblioteca digital,
como la identificación digital, los sistemas de estabilidad, la gestión de modelos, la entrada de
datos, la documentación, el software y la publicación. (Radles et al, 2017)

Jupyter Notebook tiene una buena acogida en ciencia de datos con más de 2,5 millones de
publicaciones publicadas en GitHub a partir de septiembre de 2018. Con la capacidad de crear y
mostrar códigos, números y símbolos, es ideal para crear análisis de datos de canalización y
promover la comprensión. y gestionarlo de nuevo (Clarke et al. 2021).

Figura 18-1: Jupyter notebook
Fuente: (Clarke eta al., 2021)

1.11. Matriz de confusión

En la investigación realizada por Sun (2021), la matriz de confusión bien conocida de 2 por 2 que
comúnmente se usa ampliamente en bioestadística o evaluación crediticia, usando estos, no solo
se obtienen las estadísticas de la tasa positiva verdadera (VP) y la tasa negativa verdadera (VN),
sino también el valor predictivo positivo (FP) y el valor predictivo negativo (FN).
23

Tabla 3-1: Matriz de confusión.

Predicción
Positivos Negativos
O
b
se
rv
a
ci
ó
n

Positivos
Verdaderos positivos
(VP)
Falsos negativos (FN)
Negativos Falsos positivos (FP)
Verdaderos negativos
(VN)
Fuente: (Clarkeet al, 2021)
Realizado por: Lemache, K., 2022.

1.12. Métricas de evaluación

El modelo se valora según su grado de coincidencia de acuerdo a la condición predicha respecto
a su condición real (Pinto 2021, p. 26, 27).

• VP Verdaderos positivos: Ordena de manera correcta la categoría positiva.
• VN Verdaderos negativos: Ordena de manera correcta la categoría negativa.
• FP Falsos positivos: Ordena como positiva una categoría negativa.
• FN Falsos negativos: Ordena como negativa una categoría positiva.

1.2.17. Exactitud

Determina si un modelo tiene buen desempeño y si existe simetría entre FP y FN, su expresión
matemática es (Polanía 2021, p. 11):

Exactitud =
VP+VN
VP+VN+FP+FN
(22)

1.2.18. Sensibilidad

Para Polanía (2021, p.11) la sensibilidad muestra el porcentaje de datos clasificados de forma
correcta sobre el número total de datos de la clase, si el resultado obtenido es un porcentaje
mínimo significa que no se detecta de forma correcta las muestras de cada clase y su expresión
matemática es:

Sensibilidad =
VP
VP+FN
(23)

24
1.2.19. Precisión

En la investigación realizada por Polanía (2021, p.11) la precisión indica el porcentaje de los
datos clasificados correctamente sobre el número total de datos de la clase, si el resultado
obtenido es un valor mínimo significa que existe un alto valor de falsos positivos:

Precisión =
VP
VP+FP
(24)

1.2.20. F1-Score

Según el Polanía (2021, p.11) f1-score expresa la media armónica entre la precisión y la
sensibilidad, este resultado determina el desempeño global del modelo respecto a los datos de la
clase.

F1-Score=2*
Precisión*Sensibilidad
Precisión+Sensibilidad
(25)

1.13. Curva característica operativa del receptor (ROC)

Inca en conjunto con varios autores (2022, p. 1445), mencionan que estas curvas son el resultado
del equilibro que existe entre relación de la sensibilidad expresada en la variable dependiente y
la especificidad expresada en la variable independiente por cada valor de la muestra de datos
positivos y negativos, además de la precisión global de los datos de entrenamiento.

Figura 19-1: Relación entre curvas ROC.
Fuente: (Linn et al., 2019)

1.2.21. Área bajo la curva (AUC)

Se puede decir que el área bajo la curva ROC expresa que tan bueno es un modelo para
clasificar las clases positivas y negativas, donde un área equivalente a 1 corresponde a un
25
clasificador perfecto y un área igual a 0,5 indica que la clasificación asigna de forma aleatoria
los datos correspondientes a las diferentes clases (Quiroz et al. 2022, p. 57).

Figura 20-1: Gráfica del área bajo la curva
Fuente: (Quiroz et al,. 2022, p.57)

1.14. Overfitting y underfitting

Según Zhang y de acuerdo con varios autores (2019), el overfitting y underfitting son dos de los
contratiempos muy importantes que se encuentran en la fase de entrenamiento de un modelo de
aprendizaje de máquina, un ajuste deficiente implica que la fase de entrenamiento es limitada y
la precisión es relativamente baja, por el contrario, un sobreajuste indica que el modelo solo
funciona bien en la fase de entrenamiento causando un déficit en la fase de prueba provocando
una gran pérdida de adaptabilidad y flexibilidad.

Gráfico 2-1: Overfitting y underfitting
Fuente: (Zhang et al., 2019)

1.15. Validación cruzada

Según Rodriguez (2019, p. 13), menciona que una validación cruzada es una de las técnicas más
utilizada en un modelo de aprendizaje de máquina por clasificación, donde k es la división de
muestras en un conjunto fijo dando como resultado la disminución del error estimado por cada
26
una de las iteraciones, cabe recalcar que se debe tener en cuenta el valor óptimo de la división
de muestras puesto que, si se asigna una gran cantidad de divisores a una muestra, dicha
muestra puede perder información importante que no se pude volver a recuperar.

Figura 21-1: Validación cruzada sobre 100 muestras.
Fuente: (Rodriguez, 2019, p.13)

27
CAPÍTULO II

2. MARCO METODOLÓGICO

2.1. Colección de datos

La comparación de los modelos de aprendizaje de máquina en la detección de fallas de
turborreactores se utilizó un conjunto de datos que fue proporcionado por Prognostics Center of
Excellence (PCoE) de la NASA. Se simularon varios conjuntos de datos que incluyen
mediciones de series temporales de varias presiones, temperaturas y velocidades de equipos
giratorios para el motor a reacción bajo seis condiciones de vuelo diferentes que comprendían
un rango de valores para tres condiciones operativas: altitud (0 a 42 K pies), número de Mach (0
a 0,84) y ángulo de resolución del acelerador (TRA) (20 a 100). La figura 1-2, muestra una
captura de imagen del repositorio de PCoE de la NASA.

Figura 1-2: Repositorio de