Logo Studenta

25T00493

¡Este material tiene más páginas!

Vista previa del material en texto

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO 
FACULTAD DE MECÁNICA 
CARRERA MANTENIMIENTO INDUSTRIAL 
 
 
“COMPARACIÓN DE MODELOS DE APRENDIZAJE DE 
MÁQUINA PARA LA DETECCIÓN DE FALLAS EN 
TURBORREACTORES DE DOBLE FLUJO” 
 
 
Trabajo de Integración Curricular 
Tipo: Proyecto de Investigación 
 
 
Presentado para optar al grado académico de: 
INGENIERA EN MANTENIMIENTO INDUSTRIAL 
 
 
AUTORA: 
KARINA MISHELL LEMACHE CAIZA 
 
 
Riobamba – Ecuador 
2022 
 
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO 
FACULTAD DE MECÁNICA 
CARRERA MANTENIMIENTO INDUSTRIAL 
 
 
“COMPARACIÓN DE MODELOS DE APRENDIZAJE DE 
MÁQUINA PARA LA DETECCIÓN DE FALLAS EN 
TURBORREACTORES DE DOBLE FLUJO” 
 
 
Trabajo de Integración Curricular 
Tipo: Proyecto de Investigación 
 
 
Presentado para optar al grado académico de: 
INGENIERA EN MANTENIMIENTO INDUSTRIAL 
 
 
 
AUTORA: KARINA MISHELL LEMACHE CAIZA 
DIRECTOR: Ing. FÉLIX ANTONIO GARCÍA MORA 
 
Riobamba – Ecuador 
2022 
ii 
© 2022, Karina Mishell Lemache Caiza 
 
Se autoriza la reproducción total o parcial, con fines académicos, por cualquier medio o 
procedimiento, incluyendo cita bibliográfica del documento, siempre y cuando se reconozca el 
Derecho de Autor. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iii 
Yo, Karina Mishell Lemache Caiza, declaro que el presente Trabajo de Integración Curricular 
es de mi autoría y los resultados del mismo son auténticos. Los textos en el documento que 
provienen de otras fuentes están debidamente citados y referenciados. 
 
Como autora asumo la responsabilidad legal y académica de los contenidos de este Trabajo de 
Integración Curricular; el patrimonio intelectual pertenece a la Escuela Superior Politécnica de 
Chimborazo. 
 
Riobamba, 24 de noviembre de 2022 
 
 
 
 
 
 
Karina Mishell Lemache Caiza 
 060502569-1 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iv 
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO 
FACULTAD DE MECÁNICA 
CARRERA MANTENIMIENTO INDUSTRIAL 
 
El Tribunal del Trabajo de Integración Curricular certifica que: El Trabajo de Integración 
Curricular; Tipo: Proyecto de Investigación, “COMPARACIÓN DE MODELOS DE 
APRENDIZAJE DE MÁQUINA PARA LA DETECCIÓN DE FALLAS EN 
TURBORREACTORES DE DOBLE FLUJO”, realizado por la señorita: KARINA 
MISHELL LEMACHE CAIZA, ha sido minuciosamente revisado por los Miembros del 
Tribunal del Trabajo de Integración Curricular, el mismo que cumple con los requisitos 
científicos, técnicos, legales, en tal virtud el Tribunal Autoriza su presentación. 
 
 
 
 FECHA 
 
 
Ing. Marco Antonio Ordoñez Vinan 2022-11-24 
PRESIDENTE DEL TRIBUNAL 
 
 
 
Ing. Félix Antonio García Mora 2022-11-24 
DIRECTOR DE TRABAJO DE 
INTEGRACIÓN CURRICULAR 
 
 
 
Ing. Vanessa Lorena Valverde González 2022-11-24 
MIEMBRO DE TRIBUNAL 
 
 
 
 
 
v 
DEDICATORIA 
 
 
Durante el viaje de mi vida he desarrollado una gran variedad de destrezas y habilidades que 
nunca imagine desarrollar, también entendí que los éxitos alcanzados se disfrutan más en 
compañía, la misma que te ayuda a seguir adelante cuando las cosas se complican, por esto 
quiero dedicar este trabajo de integración curricular a mis padres, de manera especial a mi 
madre, pues sin su apoyo incondicional no lo habría logrado, ella inculcó en mí la 
responsabilidad y deseos de superación, en ella tengo mi modelo a seguir pues sus virtudes y su 
gran corazón me llevan admirarla cada día más. 
 
Karina 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vi 
AGRADECIMIENTO 
 
 
Gracias a mis padres por ser los principales promotores de mis sueños, por confiar y creer en 
mis expectativas, por sus consejos, valores y principios que siempre me han inculcado, pese a 
las adversidades e inconvenientes que se presentaron ellos siempre me esperaban con los brazos 
abiertos. 
 
A mis docentes por haber compartido sus conocimientos a lo largo de mi preparación 
profesional, de manera especial a el ingeniero Félix García y la ingeniera Vanessa Valverde, 
quienes hicieron posible la culminación de este trabajo. 
 
A todos mis amigos que me han brindado un gran apoyo moral y humano, necesarios en los 
momentos difíciles de mi vida personal e incluso profesional, gracias infinitas por toda su ayuda 
y buena voluntad. 
 
Karina 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vii 
TABLA DE CONTENIDO 
 
 
ÍNDICE DE TABLAS ............................................................................................................ xiii 
ÍNDICE DE FIGURAS ....................................................................................................... xiiiiii 
INDICE DE GRÁFICOS ..................................................................................................... xvxv 
ÍNDICE DE ABREVIATURAS ........................................................................................... xvii 
ÍNDICE DE ANEXOS .......................................................................................................... xvii 
RESUMEN ........................................................................................................................... xviii 
SUMMARY ..........................................................................................................................xixix 
INTRODUCCIÓN ..................................................................................................................... 1 
 
CAPITULO I 
 
1. MARCO TÉORICO REFERENCIAL...................................................................... 4 
1.1. Turborreactores de doble flujo .................................................................................. 4 
1.2. Partes de un turborreactor ......................................................................................... 5 
1.2.1. Fan ............................................................................................................................... 5 
1.2.2. Compresor .................................................................................................................... 5 
1.2.3. Turbina ......................................................................................................................... 5 
1.2.4. Cámara de combustión ................................................................................................ 6 
1.2.5. Difusor ......................................................................................................................... 6 
1.3. Ciclo Brayton .............................................................................................................. 7 
1.4. Detección de fallas en turborreactores de doble flujo .............................................. 7 
1.5. Inteligencia artificial (IA) ........................................................................................... 7 
1.6. Machine Learning (ML) ............................................................................................. 8 
1.2.6. Tipos de aprendizaje..................................................................................................... 8 
1.2.6.1. Aprendizaje supervisado ............................................................................................... 8 
1.2.6.2. Aprendizaje no supervisado .......................................................................................... 9 
1.2.6.3. Aprendizaje por refuerzo .............................................................................................. 9 
1.7. Pasos para construir un modelode Machine Learning ............................................ 9 
1.8. Modelos de clasificación ........................................................................................... 10 
1.2.7. Modelos lineales ......................................................................................................... 10 
1.2.8. Modelos de árbol ........................................................................................................ 10 
1.2.9. Redes neuronales ....................................................................................................... 10 
1.2.10. Random Forest............................................................................................................ 11 
1.2.10.1. Explicación matemática .............................................................................................. 12 
viii 
1.2.10.2. Hiperparámetros ......................................................................................................... 13 
1.2.11. Estrategias de ajuste de hiperparámetros .................................................................. 14 
1.2.12. Support Vector Machine ............................................................................................ 14 
1.2.12.1. Caso linealmente separable ........................................................................................ 15 
1.2.12.2. Clasificación no lineal ................................................................................................ 16 
1.2.13. XGBoost ..................................................................................................................... 17 
1.2.13.1. Expresión matemática ................................................................................................. 18 
1.2.14. Gradient Boosting ...................................................................................................... 19 
1.2.14.1. Expresión matemática ................................................................................................. 19 
1.9. Redes Neuronales LSTM .......................................................................................... 20 
1.10. Python ........................................................................................................................ 20 
1.2.15. Librerías de Python .................................................................................................... 21 
1.2.15.1. Pandas ........................................................................................................................ 21 
1.2.15.2. Matplotlib ................................................................................................................... 21 
1.2.15.3. Scikit-learn.................................................................................................................. 21 
1.2.15.4. Numpy ......................................................................................................................... 22 
1.2.16. Jupyter notebooks ...................................................................................................... 22 
1.11. Matriz de confusión .................................................................................................. 22 
1.12. Métricas de evaluación ............................................................................................. 23 
1.2.17. Exactitud .................................................................................................................... 23 
1.2.18. Sensibilidad ................................................................................................................ 23 
1.2.19. Precisión ..................................................................................................................... 24 
1.2.20. F1-Score ..................................................................................................................... 24 
1.13. Curva característica operativa del receptor (ROC) ............................................... 24 
1.2.21. Área bajo la curva (AUC) .......................................................................................... 24 
1.14. Overfitting y underfitting ......................................................................................... 25 
1.15. Validación cruzada ................................................................................................... 25 
 
CAPÍTULO II 
 
2. MARCO METODOLÓGICO .................................................................................. 27 
2.1. Colección de datos ..................................................................................................... 27 
2.2. Descripción de los datos ............................................................................................ 27 
2.3. Preprocesamiento de datos ....................................................................................... 29 
2.3.1. Librerías utilizadas para la elaboración del modelo de aprendizaje de máquina ..... 29 
2.3.2. Lectura del conjunto de datos .................................................................................... 29 
2.3.3. Asignación de nombres a las columnas ..................................................................... 31 
ix 
2.3.4. Análisis exploratorio .................................................................................................. 31 
2.3.5. Limpieza de datos ....................................................................................................... 32 
2.3.6. Análisis de la distribución de probabilidad de densidad ........................................... 34 
2.3.7. Análisis del diagrama de caja del conjunto de datos ................................................. 35 
2.3.8. Matriz de correlación de Pearson .............................................................................. 36 
2.3.9. Sobre-muestreo (Oversampling) ................................................................................ 36 
2.3.9.1. Sobre-muestreo del conjunto de datos de entrenamiento ............................................ 36 
2.3.9.2. Sobre-muestreo del conjunto de datos de prueba........................................................ 38 
2.3.10. División del conjunto de datos para entrenamiento y prueba de los modelos .......... 39 
2.3.10.1. División del conjunto de entrenamiento ...................................................................... 39 
2.3.10.2. División del conjunto de prueba ................................................................................. 41 
2.4. Extracción de características ................................................................................... 42 
2.5. Entrenamiento del modelo ....................................................................................... 42 
2.5.1. Random Forest ........................................................................................................... 42 
2.5.1.1. Optimización de hiperparámetros ............................................................................... 42 
2.5.1.2. Creación de un bosque aleatorio para la optimización de hiperparámetros .............. 42 
2.5.1.3. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 43 
2.5.1.4. Entrenamiento de la búsqueda aleatoria .................................................................... 43 
2.5.2. XGBoost ..................................................................................................................... 44 
2.5.2.1. Optimización de hiperparámetros ............................................................................... 44 
2.5.2.2. Creación de un aumento de gradiente para la optimización de hiperparámetros ....... 44 
2.5.2.3. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 44 
2.5.2.4. Entrenamiento de la búsqueda aleatoria ....................................................................45 
2.5.3. Gradient Boosting ...................................................................................................... 45 
2.5.3.1. Optimización de hiperparámetros ............................................................................... 45 
2.5.3.2. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 46 
2.5.3.3. Entrenamiento de la búsqueda aleatoria .................................................................... 46 
2.5.4. Optimización de XGBoost utilizando los hiperparámetros de Gradient Boosting .... 47 
2.5.4.1. Optimización de hiperparámetros ............................................................................... 47 
2.5.4.2. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 47 
2.5.4.3. Entrenamiento de la búsqueda aleatoria .................................................................... 48 
2.6. Predicción de la vida útil restante (RUL) ................................................................ 48 
 
CAPÍTULO III 
 
3. MARCO DE RESULTADOS Y DISCUSIÓN DE LOS RESULTADOS ............. 50 
3.1. Exploración de los resultados de entrenamiento .................................................... 50 
x 
3.1.1. Análisis de los resultados de la matriz de confusión ................................................. 50 
3.1.1.1. Random Forest............................................................................................................ 50 
3.1.1.2. XGBoost ...................................................................................................................... 53 
3.1.1.3. Gradient Boosting ....................................................................................................... 56 
3.1.1.4. Optimización de XGBoost utilizando los hiperparámetros del Gradient Boosting ..... 59 
3.1.1.5. Support Vector Machine ............................................................................................. 60 
3.1.2. Análisis de los resultados obtenidos en las curvas de aprendizaje ............................ 61 
3.1.2.1. Random Forest............................................................................................................ 62 
3.1.2.2. XGBoost ...................................................................................................................... 62 
3.1.2.3. Gradient Boosting ....................................................................................................... 63 
3.1.2.4. Optimización de XGBoost con la optimización de hiperparámetros de Gradient 
Boosting. ..................................................................................................................... 64 
3.1.2.5. Support Vector Machine ............................................................................................. 64 
3.1.3. Análisis de los resultados obtenidos en la curva ROC .............................................. 65 
3.1.3.1. Random Forest............................................................................................................ 65 
3.1.3.2. XGBoost ...................................................................................................................... 66 
3.1.3.3. Gradient Boosting ....................................................................................................... 66 
3.1.3.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting ................ 67 
3.1.3.5. Support Vector Machine ............................................................................................. 67 
3.2. Análisis de los resultados del conjunto de datos de prueba ................................... 68 
3.2.1. Análisis de los resultados de la matriz de confusión ................................................. 68 
3.2.1.1. Random Forest............................................................................................................ 68 
3.2.1.2. XGBoost ...................................................................................................................... 71 
3.2.1.3. Gradient Boosting ....................................................................................................... 74 
3.2.1.4. Optimización de XGBoost utilizando los hiperparámetros del Gradient Boosting ..... 77 
3.2.1.5. Support Vector Machine ............................................................................................. 78 
3.2.2. Análisis de los resultados obtenidos en las curvas de aprendizaje ............................ 79 
3.2.2.1. Random Forest............................................................................................................ 79 
3.2.2.2. XGBoost ...................................................................................................................... 80 
3.2.2.3. Gradient Boosting ....................................................................................................... 81 
3.2.2.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting. ............... 81 
3.2.2.5. Support Vector Machine ............................................................................................. 82 
3.2.3. Análisis de los resultados obtenidos en la curva ROC .............................................. 83 
3.2.3.1. Random Forest............................................................................................................ 83 
3.2.3.2. XGBoost ...................................................................................................................... 83 
3.2.3.3. Gradient Boosting ....................................................................................................... 84 
3.2.3.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting ................ 84 
xi 
3.2.3.5. Support Vector Machine ............................................................................................. 85 
3.3. Comparación de los modelos de aprendizaje de máquina ..................................... 85 
3.3.1. Conjunto de entrenamiento ....................................................................................... 85 
3.3.2. Conjunto de prueba .................................................................................................... 86 
3.4. Constatación de la hipótesis ..................................................................................... 87 
3.5. Predicción de la vida útil restante ............................................................................ 88 
CONCLUSIONES .................................................................................................................... 91 
RECOMENDACIONES .......................................................................................................... 93 
BIBLIOGRAFÍA 
ANEXOS 
 
 
 
xii 
ÍNDICE DE TABLAS 
 
 
Tabla 1-1: Principales hiperparámetros en Random Forest .................................................. 14 
Tabla 2-1: Kernels más utilizados por el algoritmo SVM. ................................................... 15 
Tabla 3-1: Matriz de confusión. ........................................................................................... 23 
Tabla 1-2: Mejores hiperparámetros de Random Forest ....................................................... 44 
Tabla 2-2: Mejores hiperparámetros de XGBoost ................................................................ 45 
Tabla 3-2: Mejores hiperparámetros. .................................................................................... 47 
Tabla 4-2: Mejores hiperparámetros. .................................................................................... 48 
Tabla 5-2: Capas utilizadas para el ajuste de parámetros del modelo LSTM. ....................... 49 
Tabla 1-3: Resultados de la matriz de confusión con parámetros por defecto………...……51 
Tabla 2-3: Resultados de la matriz de confusión con la optimizaciónde hiperparámetros….52 
Tabla 3-3: Resultados de la matriz de confusión obtenida con los parámetros por defecto...54 
Tabla 4-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…55 
Tabla 5-3: Resultados de la matriz de confusión con parámetros por defecto……………...57 
Tabla 6-3: Resultados de la matriz de confusión con la optimización de hiperparámetros. 58 
Tabla 7-3: Resultados de la matriz de confusión con parámetros por defecto………………60 
Tabla 8-3: Resultados de la matriz de confusión con parámetros por defecto………………61 
Tabla 9-3: Resultados de la matriz de confusión con parámetros por defecto………………69 
Tabla 10-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…70 
Tabla 11-3: Resultados de la matriz de confusión obtenida con los parámetros por defecto…72 
Tabla 12-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…73 
Tabla 13-3: Resultados de la matriz de confusión con parámetros por defecto………………75 
Tabla 14-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…76 
Tabla 15-3: Resultados de la matriz de confusión con parámetros por defecto………………78 
Tabla 16-3: Resultados de la matriz de confusión con parámetros por defecto………………79 
Tabla 17-3: Metricas de evaluación de algoritmos ejecutados por defecto…………………...85 
Tabla 18-3: Metricas de evaluación de algoritmos hiperparámetrizados……………………..86 
Tabla 19-3: Metricas de evaluación de algoritmos ejecutados por defecto…………………...86 
Tabla 20-3: Metricas de evaluación de algoritmos hiperparámetrizados………………….….87 
Tabla 21-3: Valores de RMSE…………………………………………………………….….89 
 
 
xiii 
ÍNDICE DE FIGURAS 
 
 
Figura 1-1: Ejemplo de un turborreactor de doble flujo .......................................................... 4 
Figura 2-1: Esquema funcional de un turborreactor ................................................................ 4 
Figura 3-1: Compresor axial. (a) Rotor estator y (b) vista de un compresor axial ................... 5 
Figura 4-1: Cámaras de combustión: (a) anular, (b) tubular y (c) tubular-anular. ................... 6 
Figura 5-1: Tipos de difusores: (a) subsónico y (b) supersónico. ............................................ 6 
Figura 6-1: Componentes del motor a reacción y estados termodinámicos. ............................ 7 
Figura 7-1: Técnicas de Machine Learning. ............................................................................ 8 
Figura 8-1: Arquitectura de una red neuronal convolucional profunda. ................................ 11 
Figura 9-1: Random Forest Classifier ................................................................................... 11 
Figura 10-1: Algoritmo Random Forest ................................................................................. 12 
Figura 11-1: Hiperplanos de separación ................................................................................. 15 
Figura 12-1: Hiperplanos de separación. ................................................................................ 16 
Figura 13-1: Hiperplanos de separación. ................................................................................ 17 
Figura 14-1: Algoritmo XGBoost........................................................................................... 18 
Figura 15-1: Algoritmo XGBoost........................................................................................... 19 
Figura 16-1: Estructura de una red LSTM .............................................................................. 20 
Figura 17-1: Logo de la aplicación de Python. ....................................................................... 21 
Figura 18-1: Jupyter notebook................................................................................................ 22 
Figura 19-1: Relación entre curvas ROC. ............................................................................... 24 
Figura 20-1: Gráfica del área bajo la curva ............................................................................ 25 
Figura 21-1: Validación cruzada sobre 100 muestras. ............................................................ 26 
Figura 1-2: Repositorio de datos de PCoE de la NASA. ....................................................... 27 
Figura 2-2: Conjunto de datos de simulación de degradación del motor turbofan. ................ 28 
Figura 3-2: Conjunto de datos de entrenamiento. .................................................................. 28 
Figura 4-2: Conjunto de datos de prueba. .............................................................................. 28 
Figura 5-2: Conjunto de vector de valores reales de vida útil restante (RUL). ...................... 29 
Figura 6-2: Distribución de probabilidad de densidad de entrenamiento y prueba. ............... 34 
Figura 7-2: Diagrama de caja del conjunto de datos de entrenamiento y prueba. .................. 35 
Figura 8-2: Matriz de correlación de Pearson. ....................................................................... 36 
Figura 1-3: Matriz de confusión clasificador Random Forest……………...……...……..50 
Figura 2-3: Matriz de confusión parámetros optimizados RF………………………..….51 
Figura 3-3: Matriz de confusión del clasificador XGBoost………………………...…....53 
Figura 4-3: Matriz de confusión del clasificador……..………………………………….54 
Figura 5-3: Matriz de confusión de Gradient Boosting………………………………….56 
xiv 
Figura 6-3: Matriz de confusión del clasificador optimizado……………………………….57 
Figura 7-3: Matriz de confusión del clasificador……………………………………………59 
Figura 8-3: Matriz de confusión clasificador SVM…………………………………………60 
Figura 9-3: Curva de aprendizaje RandomForest…………………………………………...62 
Figura 10-3: Curva de aprendizaje XGBoost………………………………………………...63 
Figura 11-3: Curva de aprendizaje Gradient Boosting……………………………………….63 
Figura 12-3: Curva de aprendizaje del modelo………………………………………………64 
Figura 13-3: Curva de aprendizaje del modelo……………………………………………....65 
Figura 14-3: Curva de ROC Random Forest…………………………………………………65 
Figura 15-3: Curva ROC XGBoost…………………………………………………………..66 
Figura 16-3: Curva ROC Gradient Boosting…………………………………………………66 
Figura 17-3: Curva ROC modelo entrenado…………………………………………………67 
Figura 18-3: Curva ROC conjunto de entrenamiento algoritmo SVM………………………67 
Figura 19-3: Matriz de confusión clasificador Random Forest………………………………68 
Figura 20-3: Matriz de confusión Random Forest…………………………………………...69 
Figura 21-3: Matriz de confusión del clasificador XGBoost………………………………...71 
Figura 22-3: Matriz de confusión del clasificador…………………………………………...72 
Figura 23-3: Matriz de confusión del clasificador……………………………………………74 
Figura 24-3: Matriz de confusión Gradient Boosting………………………………………...75 
Figura 25-3: Matriz de confusión del clasificador……………………………………………77 
Figura 26-3: Matriz de confusión del clasificador SVM……………………………………..78 
Figura 27-3: Curva de aprendizaje RandomForest…………………………………...………80 
Figura 28-3: Curva de aprendizaje XGBoost………………………………………………...80 
Figura 29-3: Curva de aprendizaje Gradient Boosting……………………………………….81 
Figura 30-3: Curva de aprendizaje…………………………………………………………...82 
Figura 31-3: Curva de aprendizaje clasificador SVM………………………………………..82 
Figura 32-3: Curva ROC de Random Forest…………………………………………………83 
Figura 33-3: Curva ROC XGBoost…………………………………………………………..83 
Figura 34-3: Curva ROC Gradient Boosting…………………………………………………84 
Figura 35-3: Curva ROC del modelo entrenado……………………………………………...84 
Figura 36-3: Curva ROC del modelo entrenado……………………………………………...85 
Figura 37-3: Constatación de la hipótesis……………………………………………………88 
 
 
 
xv 
INDICE DE GRÁFICOS 
 
 
Gráfico 1-1: Proceso de construcciónde un modelo de Machine Learning. ............................. 10 
Gráfico 2-1: Overfitting y underfitting ..................................................................................... 25 
Gráfico 1-2: Conjunto de datos de entrenamiento .................................................................... 29 
Gráfico 2-2: Lectura y comprensión del conjunto de datos. ..................................................... 30 
Gráfico 3-2: Conjunto de datos RUL ....................................................................................... 30 
Gráfico 4-2: Distribución de datos para cada grupo de trabajo. ............................................... 31 
Gráfico 5-2: Información del conjunto de datos de entrenamiento y prueba ............................ 32 
Gráfico 6-2: Información del conjunto de datos RUL. ............................................................. 32 
Gráfico 7-2: Búsqueda de valores faltantes o nulos. ................................................................ 33 
Gráfico 8-2: Búsqueda de datos duplicados. ............................................................................ 33 
Gráfico 9-2: Búsqueda de datos duplicados. ............................................................................ 33 
Gráfico 10-2: Datos de la variable objetivo del conjunto de entrenamiento............................... 37 
Gráfico 11-2: Sobremuestreo de la variable objetivo. ................................................................ 37 
Gráfico 12-2: Conjunto de datos antes y despues del sobre-muestreo. ...................................... 38 
Gráfico 13-2: Datos de la variable objetivo del conjunto de prueba. ......................................... 38 
Gráfico 14-2: Sobremuestreo de la variable objetivo. ................................................................ 39 
Gráfico 15-2: Conjunto de datos antes y despues del sobre-muestreo. ...................................... 39 
Gráfico 16-2: División de datos para entrenamiento y prueba. .................................................. 40 
Gráfico 17-2: Valores de entrenamiento y prueba del modelo. .................................................. 40 
Gráfico 18-2: División de datos para entrenamiento y prueba. .................................................. 41 
Gráfico 19-2: Datos para entrenamiento y prueba del modelo ................................................... 41 
Gráfico 1-3: Comparación de los valores obtenidos de la matriz de confusión……………....53 
Gráfico 2-3: Comparación de los valores obtenidos de la matriz de confusión………………56 
Gráfico 3-3: Comparación de los valores obtenidos de la matriz de confusión………………59 
Gráfico 4-3: Comparación de los valores obtenidos de la matriz de confusión………………71 
Gráfico 5-3: Comparación de los valores obtenidos de la matriz de confusión………………74 
Gráfico 6-3: Comparación de los valores obtenidos de la matriz de confusión……………....77 
Gráfico 7-3: Relación entre RUL predicho y RUL real………………………………………89 
 
 
xvi 
ÍNDICE DE ABREVIATURAS 
 
 
AUC Área bajo la curva 
C-MAPSS Comercial Modular Aero-Propulsion System Simulation 
EP Elemento de proceso 
FP Falso Positivo 
FN Falso Negativo 
GBDT Árboles de decisión potenciados por gradientes 
IA: Inteligencia Artificial 
LSTM: Long Short Term Memory o Memoria a corto y largo plazo 
ML: Machine Learning o aprendizaje de máquina 
PCoE Prognostics Center of Excellence 
RNN Recurrent Neural Network o redes neuronales recurrentes 
ROC Receiver Operating Characteristic o característica operativa del receptor 
RUL Tiempo de vida útil remanente 
SVM Support Vector Machine o máquina de vectores de soporte 
TRA Ángulo de resolución del acelerador 
VP Verdadero Positivo 
VN Verdadero Negativo 
 
 
xvii 
ÍNDICE DE ANEXOS 
 
 
ANEXO A: CÓDIGO DE PROGRAMACIÓN 
 
 
 
 
 
xviii 
RESUMEN 
 
 
El objetivo de este trabajo fue comparar los modelos de aprendizaje de máquina para la 
detección de fallas en turborreactores de doble flujo. La solución aplicada en la predicción se 
realizó mediante el análisis de los datos, obtenidos en las mediciones del equipo cuyo 
aprendizaje automático es una tecnología que predice los resultados en función de un modelo 
entrenándolo con datos y analizando su comportamiento de salida, con el fin de pronosticar 
fallas en las máquinas antes de que estas ocurran; entonces se realizó un estudio comparativo 
del conjunto existente de algoritmos de aprendizaje automático para anunciar las fallas y la vida 
útil remanente del motor. Los modelos se elaboraron en base a los conjuntos de datos del motor 
turboventilador extraído del Repositorio del Centro de Excelencia de Pronósticos de la NASA 
debido a sus tres configuraciones operativas y 21 columnas de sensores. En un conjunto de 
entrenamiento se construyó un modelo y se verificó con un conjunto de datos de prueba, para 
ello se seleccionó 5 algoritmos: Random Forest, XGBoost, Gradient Boosting, SVM y un 
modelo hibrido creado como resultado de la unión de los modelos XGBoost y Gradient 
Boosting. Los resultados obtenidos se compararon con datos reales para verificar la precisión de 
cada algoritmo, resultando el algoritmo Random Forest como el mejor modelo ejecutado con 
parámetros normales y optimizados con un f1-score de 99.949% y 99.99% respectivamente. 
Finalmente, se descubrió que en la base de datos no es posible realizar una extracción de 
características utilizando aprendizaje automático debido a su peculiaridad en las condiciones 
operativas. También es importante mencionar que el modelo SVM no se fue ejecutado con 
hiperparámetros. Es recomendable utilizar métodos de comparación de aprendizaje profundo 
por su precisión al momento de clasificar los datos reduciendo drásticamente la carga 
computacional al momento de ejecutar el modelo. 
 
Palabras clave: <MODELOS DE APRENDIZAJE> <MANTENIMIENTO BASADO EN LOS 
DATOS> <TURBORREACTORES DE DOBLE FLUJO> <APRENDIZAJE AUTOMÁTICO> 
<RANDOM FOREST>. 
 
0098-DBRA-UPT-2023 
 
 
xix 
SUMMARY 
 
 
The objective of this work was to compare machine learning models for the detection of failures 
in double flow turbojets. The applied solution in the prediction was performed by analyzing the 
data, obtained in the measurements of the equipment whose machine learning is a technology 
that predicts the results based on a model by training it with data and analyzing its output 
behavior. In order to predict machine failures before they occur; then a comparative study of the 
existing set of machine learning algorithms to announce failures and the remaining useful life of 
the engine was performed. The models were built based on turbofan engine data sets extracted 
from the NASA Prediction Center of Excellence Forecasting Repository due to its three 
operational configurations and 21 sensor columns. In a training set a model was built and 
verified with a test data set, for this purpose 5 algorithms were selected: Random Forest, 
XGBoost, Gradient Boosting, SVM and a hybrid model created as a result of the union of the 
XGBoost and Gradient Boosting models. The results obtained were compared with real data to 
verify the accuracy of each algorithm, resulting in the Random Forest algorithm as the best 
model executed with normal and optimized parameters with an f1-score of 99.949% and 
99.99% respectively. Finally, it was found that in the database it is not possible to perform 
feature extraction using machine learning due to its peculiarity in the operating conditions. It is 
also important to mention that the SVM model was not run with hyperparameters. It is advisable 
to use deep learning comparison methods because of their accuracy when classifying the data, 
drastically reducing the computational load when running the model. 
 
Keywords: <LARNING MODELS> <DATA-BASED MAINTENANCE> <DUAL FLOW 
TURBOJET> <MACHINE LEARNING> <RANDOM FOREST>.Lic. Sandra Paulina Porras Pumalema 
C.I. 0603357062 
 
1 
INTRODUCCIÓN 
 
 
La evolución de la tecnología conjuntamente con la inteligencia artificial y el desarrollo de la 
industria 4.0 crean nuevos retos y técnicas en las diferentes aplicaciones importantes como en 
los tipos de mantenimiento preventivo y correctivo, para ello es importante basarse en dos 
enfoques principales del mantenimiento tales como la detección de fallas y el tiempo de vida 
útil en una máquina; entonces el desarrollo como tal basados en el aprendizaje de maquina o 
comúnmente llamado Machine Learning facilita el trabajo al analizar un sinnúmero de datos y 
determinar el resultado o falla origen con respecto a los problemas. 
 
La propuesta metodológica detallada a continuación busca comparar de manera exacta la 
predicción de distintos modelos de aprendizaje de maquina o Machine Learning, permitiendo 
así supervisar su clasificación con la finalidad de determinar cuál es el correcto modelo de 
aprendizaje en turborreactores de doble flujo con respecto al análisis de fallas y vida útil. 
 
Para el contexto del trabajo se utiliza un turborreactor de doble flujo utilizado en sistemas de 
propulsión de aviones, conociendo que su trabajo es mediante, entrada, compresión, combustión 
y escape de gases; se conoce que en la NASA ha empleado un sistema mediante Machine 
Learning para análisis de falla en motores constituido de un sinnúmero de sensores que 
permitan recolectar datos. 
 
El uso de la Inteligencia Artificial (IA) hoy en día es un tema muy importante debido a su 
capacidad de análisis de datos más profundos mediante redes neuronales; cuando los algoritmos 
son de autoaprendizaje, los datos tienen la capacidad de volver a propiedad intelectual y al 
involucrarse con la aplicación de Machine Learning permitiendo que los sistemas tengan la 
capacidad de aprender y mejorar automáticamente sin la necesidad de algún algoritmo de 
programación. 
 
Justificación y actualidad 
 
La manufactura inteligente y la innovación de la industria 4.0 a nivel mundial forman parte de la 
transformación tecnológica para crear sistemas de gestión y formas de hacer negocios, que 
permitan optimizar los procesos de fabricación, alcanzar una mayor flexibilidad y eficiencia, así 
como responder de forma oportuna a las necesidades de su mercado (Ynzunza et al. 2017, p. 33-45). 
 
La industria 4.0 está constituida de tecnologías basadas en la inteligencia artificial que permiten 
2 
al ser humano analizar grandes cantidades de información (Big data). Estas tecnologías están 
siendo aprovechadas por el ser humano para beneficiarse de mejoras significativas en casi todas 
las situaciones, pero también obliga al ser humano a prevenir y analizar las posibles desventajas 
(Rouhiainen, 2018). 
 
La necesidad de monitorear constantemente el estado de la propiedad física y la presencia de 
una gran cantidad de datos industriales, refleja que aplicar Machine Learning es la mejor opción 
para lograr un diagnóstico automático y confiable acerca del estado de las máquinas, además la 
disponibilidad de estrategias de mantenimiento causadas por máquinas le permitirá obtener 
grandes ventajas en el rendimiento, seguridad, optimización y toma de decisiones; así mismo el 
reconocimiento automático de patrones es muy deseable ya que a través de una clasificación 
automática se puede detectar e identificar fallos de tal forma que el personal logre tomar una 
resolución de mantenimiento sin la necesidad de un técnico (Chen, et al., 2019). 
 
En nuestro país se ha llevado a cabo varias investigaciones utilizando métodos de aprendizaje 
automático en distintas áreas, no obstante, pocos estudios se enfocan a la industria del 
mantenimiento. Por esta razón, la Escuela Superior Politécnica de Chimborazo carece de 
estudios relacionados con las aplicaciones de aprendizaje automático enfocado al 
mantenimiento industrial; es por ello que se ofrece un marco innovador y moderno para mejorar 
la calidad del mantenimiento industrial en la industria del mantenimiento. 
 
Planteamiento del problema 
 
Actualmente la industria aérea tanto en sus aviones comerciales como militares utilizan 
turbofanes o turbohélices por sus excelentes funciones al momento de la puesta en marcha , una 
vez que se han abarcado y cubierto las zonas de vuelo atmosférico tanto en altitud y velocidad, 
se puede imaginar qué sucederá en el caso de que el avión presente complicaciones debido a 
una falla dentro del monitoreo constante de un turbofán ocasionando problemas de rendimiento, 
accidentes aéreos e incluso se puede llegar a perder vidas humanas. Debido a esto surge la 
necesidad de contar con técnicas de monitoreo y diagnostico automático, que sea confiable y 
brinde gran precisión. 
 
Hipótesis 
 
Utilizando varios métodos de Machine Learning se detectan fallas en turborreactores de doble 
flujo. 
 
3 
Variable dependiente 
 
Detección de fallas 
 
Variable independiente 
 
• Matriz de confusión. 
• Precisión 
• Exactitud 
 
Objetivos 
 
Objetivo general 
 
Comparar los modelos de aprendizaje de máquina para la detección de fallas en turborreactores 
de doble flujo. 
 
Objetivos específicos 
 
• Realizar el preprocesamiento de datos de fallas en turborreactores de doble flujo. 
 
• Dividir los datos de fallas en turborreactores de doble flujo para entrenamiento y 
prueba de los modelos. 
 
• Determinar las características de extracción estadísticas de los modelos. 
 
• Diseñar y comprobar la precisión de los algoritmos para la detección de fallas en 
turborreactores de doble flujo. 
 
 
4 
CAPITULO I 
 
 
1. MARCO TÉORICO Y MARCO CONCEPTUAL 
 
1.1. Turborreactores de doble flujo 
 
Un motor turborreactor de las aeronaves es un sistema aerodinámico extremadamente complejo 
que funciona en entornos difíciles, consta de una unidad de admisión de aire, un soplador, un 
generador de aire y una tobera de escape. En el turbofán, una parte activa de la turbina se utiliza 
para impulsar el ventilador. En general, los motores turbofanes son más económicos y eficientes 
que los jets subsónicos. El diámetro del ventilador también está limitado aerodinámicamente en 
lo que respecta a la compresión (Contreras 2015). 
 
 
Figura 1-1: Ejemplo de un turborreactor de doble flujo 
 Fuente: (Contreras, 2015) 
 
 
Figura 2-1: Esquema funcional de un turborreactor 
 Fuente: (Franchini et al., 2016) 
5 
1.2. Partes de un turborreactor 
 
1.2.1. Fan 
 
Sanches (2021, p.5), en su contexto define al fan como un flujo másico de aire suministrado al 
motor por un ventilador, entonces el flujo de aire primario es comprimido por compresores de 
baja y alta presión, mientras que el flujo de aire secundario corresponde a un flujo de aire más 
alto a través del ventilador y alrededor del núcleo del motor; cabe señalar que el líquido 
primario que pasa por el núcleo se mezcla con el combustible de combustión. 
 
1.2.2. Compresor 
 
De acuerdo con Suárez (2021), se conoce que un compresor se integra al motor cuando la presión 
a la entrada del aire aumenta considerablemente. Los denominados compresores axiales forman 
parte de dichos motores cuentan con distintas fases con un par de series que constan de una serie 
de etapas y a su vez, constan de dos series de álabes. El primer para de alabes es giratorio, 
diseñados aerodinámicamente para aumentar el flujo de aire y su energía cinética. La segunda 
serie, llamada estator, son álabes de configuración aerodinámica, reducen la componente 
cinética del flujo, restringiendo el movimiento y aumentando la componente estática, es decir, la 
presión del aire. 
 
 
Figura 3-1: Compresor axial. (a) Rotor estator y (b) vista de un compresor axial 
 Fuente: (Franchini, et al., 2016). 
 
1.2.3. Turbina 
 
Según Sanches (2021, p. 5), menciona a la turbina como el principal elemento derecolección de 
energía necesaria para arrancar el compresor y el ventilador, las etapas están separadas por 
turbinas de alta y baja presión pero cada etapa tiene su propio eje, con la turbina de baja presión 
impulsando el ventilador y el compresor de baja presión, y la turbina de alta presión impulsando 
6 
el compresor de alta capacidad, al expandirse el gas combustible absorbe energía haciendo que 
la turbina gire a alta velocidad, generando así la energía necesaria para accionar el eje y su 
respectivo ventilador y/o compresor. 
 
1.2.4. Cámara de combustión 
 
Montazeri de acuerdo con varios autores (2019, p. 102), concuerdan que las cámaras de 
combustión están formadas por tubos de llama en donde se produce la combustión, el 
combustible automatizado y vaporizado se inyecta automáticamente a través de un inyector 
dado que la combustión se realiza en régimen subsónico y el flujo de aire tras el compresor se 
caracteriza por elevadas velocidades, a la entrada del tubo de llama se sitúa un difusor de 
corriente que aumenta la presión y disminuye la velocidad. 
 
 
Figura 4-1: Cámaras de combustión: (a) anular, (b) tubular y (c) tubular-anular. 
 Fuente: (Franchini et al., 2016) 
 
1.2.5. Difusor 
 
Franchini y López (2016, p. 286), consideran que el flujo de aire actúa sobre el turborreactor para 
ralentizar el flujo de corriente y evitar desprendimiento y uniformidad de la corriente de entrada 
al compresor, la deceleración actual de corriente es necesaria porque el número de Mach de un 
compresor axial suele estar alrededor de 0,4; mientras que los turbofanes normalmente 
funcionan con un número de Mach de 0,7. 
 
 
Figura 5-1: Tipos de difusores: (a) subsónico y (b) supersónico. 
 Fuente: (Franchini et al., 2016) 
7 
 
1.3. Ciclo Brayton 
 
El ciclo ideal de Brayton consta de cuatro procesos termodinámicos, dos de los cuales son 
isobáricos (o presión constante) y los otros dos son isentrópicos (o entropía constante), estos dos 
procesos isotrópicos también son procesos adiabáticos, es decir, no entra ni sale materia ni calor 
del líquido durante el proceso (Falcão 2018, p. 13, 14). 
 
 
Figura 6-1: Componentes del motor a reacción y estados termodinámicos. 
 Fuente: (Falcão, 2018) 
 
1.4. Detección de fallas en turborreactores de doble flujo 
 
Actualmente los turborreactores se desarrollan como controladores electrónicos para mejorar el 
rendimiento y eficiencia del motor, equipando así el sistema de control con múltiples sensores. 
Los motores, componentes electrónicos, entre otros, son vulnerables y expuestos a fallas; debido 
a estas vulnerabilidades, se realizan diseños más robustos que sean capaces de soportar dichas 
fallas y mal funcionamiento de uno o varios componentes (Bae 2021). 
 
En los últimos años, la búsqueda de fallas en los motores turbofán se ha estudiado y utilizado 
métodos para dar solución a dichas fallas, obteniendo así dos métodos de estudio que se dividen 
en: métodos basados en modelos y métodos basados en datos. El primer método brinda la 
mayoría de soluciones a los problemas de monitoreo en tiempo real, sin embargo, este método 
requiere modelos matemáticos de alta fidelidad de los motores turboventiladores, que rara vez 
están disponibles en el mercado; muchos métodos basados en datos utilizan modelos 
estadísticos y de extracción de características y aprendizaje automático (Sun, et al., 2020). 
 
1.5. Inteligencia artificial (IA) 
 
Rouhiainen (2018), establece que IA es la facultad de las máquinas por emplear algoritmos, 
8 
estudiar los datos y poner en práctica lo que han aprendido para tomar decisiones de manera 
autónoma; a diferencia de los humanos los dispositivos basados en IA no necesitan un descanso 
y pueden analizar grandes cantidades de información a la vez. Otra ventaja de la IA es que 
permitirá que las máquinas y los robots realicen tareas que los humanos encuentran difíciles o 
peligrosas, permitiendo al ser humano hacer cosas que antes creían imposibles. 
 
1.6. Machine Learning (ML) 
 
Según Zhang (2020), el aprendizaje automático es un subconjunto de inteligencia artificial que 
construye modelos matemáticos a partir de datos de muestra para hacer predicciones o tomar 
decisiones sin necesidad de formular un programa explícito para realizar una tarea, en el 
aprendizaje automático, las redes neuronales, las máquinas de vectores auxiliares y las 
computadoras evolutivas, generalmente se obtiene un conjunto de entrenamiento y un conjunto 
de prueba, para construir un regresor o clasificador aprendiendo de un conjunto de 
entrenamiento y luego evaluando el rendimiento del regresor o clasificador en el conjunto de 
prueba. 
 
 
Figura 7-1: Técnicas de Machine Learning. 
 Fuente: (Cruz 2021, p. 25). 
 
1.2.6. Tipos de aprendizaje 
 
1.2.6.1. Aprendizaje supervisado 
 
Este tipo de aprendizaje enseña al algoritmo cómo realizar su trabajo con un conjunto de datos 
9 
clasificados bajo una cierta apreciación o idea para encontrar patrones que puedan aplicarse en 
un análisis y producir una salida que ya se conoce (Manrique, 2020). 
 
1.2.6.2. Aprendizaje no supervisado 
 
Al contrario del algoritmo supervisado, los algoritmos pertenecientes a este bloque se encargan 
de encontrar grupos de casos en el conjunto de entrenamiento en función del valor de la variable 
independiente, lo que significa que los casos en un mismo grupo son similares y los casos en 
diferentes grupos sean lo más diferente posible (Padilla 2020). 
 
1.2.6.3. Aprendizaje por refuerzo 
 
En este tipo de aprendizaje el algoritmo estudia el mundo que le rodea y analiza el ingreso de 
información que adquiere del exterior; como resultado, el algoritmo memoriza por medio de 
prueba-error (Cruz 2021). 
 
1.7. Pasos para construir un modelo de Machine Learning 
 
Según Manrique (2020, p. 589), para construir un modelo de ML, se necesita de seis importantes 
pasos como es la colección de datos, es el proceso de recopilación y medición de información 
de la base de datos; la descripción de datos es el primer paso para tener una visión amplia de los 
datos para identificar áreas o patrones que se deben profundizar. 
 
El preprocesamiento de datos inicia con la importación de las librerías, lectura del conjunto de 
datos, análisis exploratorio y limpieza de datos. Antes de dividir los datos para entrenar y probar 
el modelo se realiza un paso muy importante en todo análisis de datos que es la extracción de 
características, consiste en darle la vuelta a los datos para poder visualizarlos desde otra 
perspectiva. Entrenar el algoritmo consiste en dividir el conjunto de datos para entrenamiento y 
prueba del modelo de aprendizaje automático, el porcentaje más utilizado en la división de datos 
es de 75% del total de datos para entrenamiento y el 25% restante para prueba, con los 
resultados obtenidos se procede a evaluar el modelo utilizando métricas de evaluación, de esta 
forma se verifica si el modelo se ajusta o no al conjunto de datos. 
 
La metodología utilizada en el desarrollo de este proyecto utiliza dicho procedimiento y se 
detalla de mejor manera en el capítulo II. 
 
 
10 
 
Gráfico 1-1: Proceso de construcción de un modelo de Machine 
Learning. 
 Fuente: (Manrique, 2020, p.589) 
 Realizado por: Lemache, K., 2022. 
 
1.8. Modelos de clasificación 
 
1.2.7. Modelos lineales 
 
Intentan encontrar una línea de "ajuste" a la nube de puntos disponible, en este punto se 
destacan de los modelos conocidos y utilizados, como la regresión lineal (también conocida 
como regresión de mínimos cuadrados), regresión logística (adaptación lineal a problemas de 
análisis; ambos modelos están "sobre ajustados" lo que significa que hacen "demasiados" 
ajustes a los datos existentes, lo que pone en riesgo los nuevos datos (Sandoval 2018). 
 
1.2.8. Modelos de árbol 
 
Zhou et al., (2021), menciona que un árbolde decisiones es una herramienta de aprendizaje 
automático no paramétrico que se utiliza para crear modelos predictivos a partir de sus datos. Se 
obtienen dividiendo recursivamente el espacio de características en particiones axiales y 
ajustando una función predictiva simple, a menudo constante, en cada partición, un ejemplo de 
este modelo es Random Forest o bosque aleatorio por su traducción en español. 
 
1.2.9. Redes neuronales 
 
Colección de 
datos
Preprocesamie
nto de datos
Exploración de 
datos
Se entrena el 
algoritmo
Evaluación de 
los algoritmos
Uso del modelo
11 
En un texto detallado por, Avila en conjunto con varios autoes (2020), mencionan que las redes 
neuronales son similares en función a las neuronas biológicas en sus funciones más comunes, 
llamados "procesador de elementos lógicos" y elemento de proceso (PE). Cada PE (neurona) 
tiene elementos de entrada (dendritas) que recogen los pulsos de entrada integrados en el cuerpo 
de los elementos de procesamiento y producen respuestas o resultados. Las salidas de PE 
(axones) se pueden vincular a las entradas de otras neuronas artificiales a través de la sinapsis. 
 
 
Figura 8-1: Arquitectura de una red neuronal convolucional profunda. 
 Fuente: (Pinto 2021, p. 21) 
 
1.2.10. Random Forest 
 
Introducidos por Leo Breiman y Adele Cutler en 2001, los bosques aleatorios son una colección 
de árboles de clasificación y regresión, utilizan divisiones binarias en variables predictoras para 
determinar las predicciones de resultados, se construyen utilizando conjuntos de datos de 
entrenamiento seleccionados al azar y subconjuntos aleatorios de variables predictoras para 
modelar los resultados (Linn et al., 2019). 
 
 
Figura 9-1: Random Forest Classifier 
12 
 Fuente: (Linn et al., 2019). 
Para Espinoza (2020), los resultados obtenidos se combinan a fin de obtener un modelo único y 
robusto, cada árbol generado contiene un grupo de observaciones aleatorias (elegidas mediante 
bootstrap, que es una técnica estadística para obtener muestras de una población donde una 
observación se puede considerar en más de una muestra). Las observaciones no estimadas en los 
árboles (también conocidas como “Out of the bag”) se utilizan para validar el modelo. 
 
 
Figura 10-1: Algoritmo Random Forest 
 Fuente: (Espinoza, 2020, p.3) 
 
1.2.10.1. Explicación matemática 
 
En la investigación realizada por Biau y Scornet (2016),menciona que, para simplificar, solo se 
considera el problema de clasificación binaria. En este planteamiento la respuesta aleatoria Y 
toma valores en {0, 1} y, dado X, uno tiene que predecir el valor de Y. Un clasificador, mn es 
una función medible de Borel de X y Dn que predice la etiqueta Y a partir de X y Dn. En este 
planteamiento, se dice que el clasificador mn es consistente si la probabilidad de error es: 
 
L(mn)= P[mn(X)≠Y]n→∞𝐿, (1) 
 
donde L es el error del clasificador óptimo de Bayes: 
 
m(x)= {
1 si P[Y=1 | X=x >P[Y=0 | X=x
0 de lo contrario 
 } (2) 
 
El clasificador se obtiene mediante un voto entre los árboles de clasificación 
(Biau, et al., 2016). 
, 
 
 
13 
 
mM,n(x; θ1, ..., θM, Dn)= {
1 si 
1
M
 ∑ mn(x; θj, Dn) >1/2
M
j=1
0 de lo contrario 
 } (3) 
 
sí una hoja representa la región A, entonces un clasificador de árbol aleatorio toma la forma 
simple 
 
mn(x; θj, Dn)= {
1 si ∑ 1xi∈A, Yi>
i∈Dn(θj)
∑ 1xi∈A, Yi=0,x ϵ A
i∈Dn(θj)
0 de lo contrario 
 } (4) 
 
donde Dn (θj), en cada hoja se toma un voto mayoritario sobre todos (Xi, Yi) para los que Xi 
está en la misma región. Los empates se rompen, por convención, a favor de la clase 0. El 
algoritmo 1 se puede adaptar fácilmente para realizar una clasificación en dos clases sin 
modificar el criterio CART-split. Para ver esto, Y ∈ {0, 1} y para cualquier celda A genérica, 
sea p
0, n
(A) (resp., p
1, n
(A)) la probabilidad empírica, dado un punto de datos en una celda A, de 
que tenga la etiqueta 0 (resp., etiqueta 1). Al notar que Y̅A= p1, n(A) = 1- p0, n(A), el criterio de 
clasificación CART-split dice, para cualquier (j, z) ∈ CA, 
 
Lclase, n(j, z)= p0, n(A) p1, n(A) -
Nn(AL)
Nn(A)
 × p
0, n
(AL) p1, n(AL) -
Nn(AR)
Nn(A)
 × p
0, n
(AR) p1, n(AR) 
(5) 
 
Este criterio se basa en la llamada medida de impureza de Gini 2p
0, n
(A)p
1, n
(A), para clasificar 
un punto de datos que cae en la celda A, se usa la regla que asigna un punto, uniformemente 
seleccionado de {Xi ∈ A: (Xi, Yi) ∈ Dn}, para etiquetar ℓ con probabilidad pl, n(A), para j ∈ {0, 
1}. La probabilidad estimada de que el artículo tenga realmente una etiqueta ℓ es p
l, n
(A). Por lo 
tanto, el error estimado bajo esta regla es el índice de Gini 2p
0, n
(A) p
1, n
(A), y es recomendado 
establecer nodesize = 1 y mtry =√p, para problemas de clasificación (Biau y Scornet 2016). 
 
1.2.10.2. Hiperparámetros 
 
Probst (2019), en su investigación deduce que los parámetros de clasificación deben ser 
optimizados antes de ejecutar el entrenamiento del algoritmo, además existen hiperparámetros 
que deben configurarse previamente; como el total de variables a examinar en cada fracción de 
un Random Forest, la cifra total de estímulos en el Gradient Boosting, el kernel en SVM. 
 
 
 
14 
 
1.2.11. Estrategias de ajuste de hiperparámetros 
 
En la disertación realizada por Probst (2019), una de las estrategias más idóneas para la selección 
de hiperparámetros es la validación cruzada, consiste en comparar distintos hiperparámetros en 
un tiempo muy reducido. Otra estrategia más sencilla es la búsqueda de cuadrícula, define una 
cantidad finita de valores y posteriormente evalúa todas las combinaciones posibles de 
hiperparámetros. Por último, se encuentra la búsqueda aleatoria, consiste en la extracción 
aleatoria de hiperparámetros utilizando la distribución uniforme. 
 
Tabla 1-1: Principales hiperparámetros en Random Forest 
Hiperparámetros Descripción 
n_estimators Número de árboles de decisión 
Criterion Determina si un nodo continúa dividiéndose 
min_samples_split Número mínimo de muestras necesarias para dividir un nodo 
max_depth 
Profundidad máxima del árbol, por defecto, hasta que las muestras en 
todas las hojas sean muestras puras o el número de muestras sea menor 
que min_samples_split 
max_features 
Número máximo de características involucradas cuando se divide un 
nodo. 
min_samples_leaf Número mínimo de muestras de nodos por hoja. 
Bootstrap Método para extraer la muestra de datos (con o sin reemplazo). 
n_jobs 
Números paralelos, más trabajos pueden acelerar la construcción del 
árbol 
random_state Objeto aleatorio 
Verbose 
Si se muestra el registro de construcción del submodelo, 0 significa que 
no se muestra, 1 significa salida ocasional y más de 1 significa que cada 
submodelo genera salidas. 
 Fuente: (Li, et al, 2018) 
 Realizado por: Lemache, K., 2022. 
 
1.2.12. Support Vector Machine 
 
Introducido por primera vez a fines de la década de 1970 por Vapnik, es uno de los algoritmos 
de aprendizaje basados en kernel, que tiene como objetivo principal resolver un problema de 
optimización cuadrática convexa para obtener una solución óptima global en teoría y, por lo 
tanto, superar el dilema extremo local de otras técnicas de aprendizaje automático (Sheykhmousa 
15 
et al. 2020). 
 
Figura 11-1: Hiperplanos de separación 
 Fuente: (Cervantes, 2020) 
 
Sheykhmousa y varios autores (2020), especifican que el algoritmo SVM en su forma básica, es 
un clasificador binario lineal, el cuál determina un hiperplano óptimo para dividir el conjunto de 
datos en un número discreto de clases preestablecidas aplicando los datos de entrenamiento que 
se encuentran cerca del espacio de características del límite de decisiónóptimo, actuando como 
vectores de soporte; estas muestras son los datos más difíciles de clasificar y generan un 
impacto directo en la ubicación óptima del límite de decisión. Este proceso iterativo de construir 
un clasificador con un límite de decisión óptimo se describe como el proceso de aprendizaje. 
 
Tabla 2-1: Kernels más utilizados por el algoritmo SVM. 
Kernel Expresión matemática Parámetros 
Polinomial K(Xi, Xj)= (<Xi, Xj>+1)
r
 r ∈ ℤ+ 
Función básica 
radial gaussiana 
(RBF) 
K(Xi, Xj)= exp
‖ Xi, Xj‖
r
2σ2
 σ 
Linear K(Xi, Xj)= <Xi, Xj>+1= Xi
T Xj+1 Ninguno 
Tangente 
hiperbólica 
K(Xi, Xj)= tanh(<Xi, Xj>β+b) β, b 
 Fuente: (Cervantes, 2020) 
 Realizado por: Lemache, K., 2022. 
 
1.2.12.1. Caso linealmente separable 
 
En la investigación realizada por Cervantes en conjunto con distintos autores (2020), donde 
define que para entrenar el algoritmo se requiere varios ejemplos y cada uno consta de un vector 
de entrada xi y la etiqueta asociada yi, expresado de la siguiente manera: 
 
16 
(x1,y2), (x2,y2), …, (xn,yn) (6) 
es decir, X= {xi,yi}i=1
n
 donde xi ∈ R
d y y
i
 ∈ (+1, -1). Por la visualización, se considera el caso de 
una entrada bidimensional, x ∈ R2. El nivel de decisión, es decir, el hiperplano que separa el 
espacio de entrada está definido por la ecuación wTxi+b=0. 
Se optimiza el margen geométrico estableciendo el margen funcional kappai= 1 (también 
llamado hiperplano canónico), por lo tanto, el clasificador lineal y
i
= 1, 
 
(w*x+)+b= 1 
(w*x-)-b= 1 
(7) 
 
Estos se pueden combinar en un conjunto de desigualdades: 
 
y
i
=(〈w*xi〉+b)≥1 ∀ i (8) 
 
El margen geométrico de x+ y x- es: 
 
γ
i
 = 
1
2
(〈
w
‖w‖
*x+〉 - 〈
w
‖w‖
*x-〉) 
= 
1
2‖w‖
(〈w*x+〉-〈w*x-〉) 
= 
1
‖w‖
 
(9) 
 
 
Figura 12-1:Hiperplanos de separación. 
 Fuente: (Cervantes, 2020) 
 
1.2.12.2. Clasificación no lineal 
 
Cuando las muestras no se pueden separar de forma lineal la máquina de soporte de vectores, 
extiende su habilidad de distribución a través de kernel de mapeo de gran dimensión, facultando 
la clasificación lineal. El kernel 𝑘(𝑥, 𝑦) es el producto interno entre las muestras donde 
17 
𝑘(𝑥, 𝑦) = 〈φ(x), φ(y)〉 (Lei, 2017, p.123). 
 
Por medio de una función kernel la optimización en forma dual se expresa mediante la siguiente 
formula: 
Max L(α)= ∑ αi-
1
2
M
i=1
∑ αiαj
M
i,j=0
y
i
y
j
k(xjxj
) (10) 
s.t. {
0 ≤ αi ≤ C, i=1,2,…,M
 ∑ αi
M
i=1
y
i
=0 
} (11) 
 
La función de decisión se denota como: 
f(x)=sing( ∑ αi
M
i,j=1
y
i
k(x𝑖xj)+b) (12) 
 
 
Figura 13-1: Hiperplanos de separación. 
 Fuente: (Cervantes, 2020) 
 
1.2.13. XGBoost 
 
Qui en conjunto con varios autores (2021), mencionan que el aumento del gradiente extremo 
(XGBoost) es un algoritmo que desempeñar un papel importante en la mejora del gradiente. Se 
basa en la teoría de la clasificación y el árbol de regresión, convirtiéndose en un método muy 
efectivo para resolver problemas de clasificación y regresión, puede simbolizar una biblioteca 
de computación suave que combina el nuevo algoritmo con métodos de árboles de decisión 
potenciados por gradientes (GBDT). Después de la optimización, la función objetivo de 
XGBoost consta de dos partes diferentes, que representan la desviación del modelo y el término 
regular para evitar el ajuste excesivo. 
 
 
18 
 
Figura 14-1: Algoritmo XGBoost 
Fuente: (Qui, 2021) 
 
1.2.13.1. Expresión matemática 
 
Si se tiene un conjunto de datos que tiene m características y un número de n ejemplos, se tiene 
Ds= {(xi,yi): i=1 … n, xi∈ R
m, y
i
 ∈ R}. Donde ŷ
i
 es el resultado de un modelo de árbol 
expresada en la siguiente ecuación (Ahmed et al. 2021): 
 
Ȧi= ∅(xi)= ∑ fk(
K
k=1
xi), fk ∈ F (13) 
 
K representa el número de árboles y fk representa el número de k-ésimo árbol para resolver la 
ecuación 13, minimizando la perdida y el objetivo de regularización. 
 
L(∅)= ∑ l(
i
y
i
, Ȧi)+ ∑ Ω(fk)
k
 (14) 
 
El valor l es la función de pérdida, mientras que Ω indica que tan complejo es el modelo: 
 
Ω(fk)= γT+ 
1
2
λ‖w‖2 (15) 
 
T, representa el número de hojas del árbol y w es el peso de cada hoja. 
 
L(t)= ∑ l(
i=1
y
i
, Ȧi
(t-1)
+ft(xi))+ Ω(ft) (16) 
 
Lsplit= 
1
2
[
(∑ g
ii∈lL
)
2
(∑ hii∈lL )+λ
+
(∑ g
ii∈lL
)
2
(∑ hii∈lL )+λ
-
(∑ g
ii∈lL
)
2
(∑ hii∈lL )+λ
] -γ (17) 
g
i
= δ
A(t-1)
(y
i
, Ȧi
(t-1)
) 
hi= δA(t-1)
2 (y
i
, Ȧi
(t-1)
) 
 
19 
1.2.14. Gradient Boosting 
 
En la investigación realizada por Duan et al. (2021), estos autores exponen que, al ajustar un 
árbol de decisión al gradiente el algoritmo divide los datos de tal forma que se aliñe con el eje y 
cada fracción está asociada con un nodo de hoja del árbol y se hace lo más homogéneo posible 
en su variable de respuesta; el valor de predicción del nodo de hoja se configura para que sea el 
componente aditivo de las predicciones que minimiza la pérdida al máximo, esto es equivalente 
a hacer una "búsqueda de línea". 
 
 
Figura 15-1: Algoritmo XGBoost 
 Fuente: (Duan et al. 2021). 
 
1.2.14.1. Expresión matemática 
 
Dado un conjunto de datos de entrenamiento D= {xi, yi}1
N
, se genera una aproximación F̂(x) de 
la función F(x) se obtiene: 
 
Fm(x)= Fm-1(x)+ρmhm(x) (18) 
 
ρ
m
 es el peso de la mth función hm(x), creando una aproximación iterativa a partir de una 
aproximación constante de F(x) se define la siguiente ecuación: 
 
Fo(x)= arg min
α
 ∑ L(y
i
, α)
N
i= 1
 (19) 
(ρ
m
hm(x))= arg min
ρ, h
 ∑ L(y
i
, Fm-1(xi) + ρh(xi))
N
i= 1
 (20) 
 
Sin embargo, este parámetro en vez de resolver la optimización del algoritmo, el hm puede 
provocar una optimización en descenso del gradiente, es por eso que cada modelo se entrena 
20 
con un nuevo conjunto de datos D= {xi, rmi}1
N, donde rmi se expresa (Bentéjac, et al,2020). 
 
rmi= [
δL(y
i
, F(xi)
δF(x)
]
F(x)= Fm-1(xi)
 (21) 
 
ρ
m
 se calcula resolviendo un problema de optimización de búsqueda de línea. 
 
1.9. Redes Neuronales LSTM 
 
Las redes LSTM presentan una diversidad de aplicaciones, reducen las dificultades de memoria 
a largo plazo, su función primordial se basa en una celda de red recurrente básica, su estructura 
cuenta con una entrada (Ct-1) y una salida (Ct), que se asemeja a una banda transportadora a la 
que se pueden añadir o retirar datos de la memoria de la red. Para ello utiliza tres compuertas 
que permiten eliminar y añadir elementos de la memoria y a su vez permite crear un estado 
oculto (Herrera, 2020, p. 9). 
 
Figura 16-1: Estructura de una red LSTM 
Fuente: (Herrera 2020, p. 9) 
 
Cada compuerta consta de tres elementos: una red neuronal, una función sigmoidal y un 
elemento multiplicador. La variable (Xt) representa a la información de entrada, la variable (ht-
1) indica la salida anterior y finalmente la variable (ht) señala la nueva salida (Herrera, 2020, p. 9). 
 
1.10. Python 
 
Es un lenguaje de programación interpretado como multiparadigma que tiene una gran 
comunidad de desarrolladores y una variedad muy amplia y rica de librerías de apoyo, demás, 
utiliza un lenguaje muy estable y ampliamente empleado en ámbitos de desarrollo para ciencia 
de datos y computación, lo que propicia que se encuentren con más probabilidad las 
herramientas que puedan servirnos, ofrece un modo interactivo ideal para depurar código que 
21 
está realizando gran cantidad de cálculos con volúmenes importantes de datos (Layme et al., 2022). 
 
 
Figura 17-1: Logo de la aplicación de Python. 
 Fuente: (Layme et al., 2022) 
 
1.2.15. Librerías de Python 
 
1.2.15.1. Pandas 
 
Es una herramienta de manipulación de datos de alto nivel desarrollada por Wes McKinney, 
está construido con el paquete Numpy y su estructura de datos clave es llamada el DataFrame, 
permite almacenar y manipular datos tabulados en filasde observaciones y columnas de 
variables (Layme et al. 2022). 
 
1.2.15.2. Matplotlib 
 
Es una biblioteca de trazado 2D de Python que produce figuras de calidad de publicación en una 
variedad de formatos impresos y entornos interactivos en todas las plataformas, puede usar en 
scripts de Python, servidores de aplicaciones web y seis juegos de herramientas de interfaz 
gráfica de usuario. Matplotlib intenta hacer las cosas fáciles y las difíciles posibles. Puede 
generar gráficos, histogramas, espectros de potencia, gráficos de barras, gráficos de error, 
gráficos de dispersión, etc., con solo unas pocas líneas de código (Layme et al. 2022). 
 
1.2.15.3. Scikit-learn 
 
Scikit-learn anteriormente también conocido como sklearnes una biblioteca de Machine 
Learning de software libre para el lenguaje de programación Python, cuenta con varios 
algoritmos de clasificación, regresión y agrupamiento que incluyen SVM, Random Forest, 
Gradient Boosting y está diseñado para interoperar con las bibliotecas numéricas y científicas de 
22 
Python (Layme et al. 2022). 
 
1.2.15.4. Numpy 
 
Es una librería de Python la cual está diseñada para el cálculo numérico y el análisis de datos, 
tiene incorporada una clase de arrays u objetos, que permiten representar datos en varias 
dimensiones y funciones las cuales facilitan su manipulación (Cruz 2021, p. 28). 
 
1.2.16. Jupyter notebooks 
 
Jupyter Notebook es una herramienta avanzada basada en navegador que funciona como un 
cuaderno de laboratorio diseñado para admitir flujos de trabajo, código, datos y análisis que 
definen el proceso de búsqueda. Estos cuadernos se pueden almacenar en línea, su importancia 
se basa en su interacción con muchos aspectos de la infraestructura de la biblioteca digital, 
como la identificación digital, los sistemas de estabilidad, la gestión de modelos, la entrada de 
datos, la documentación, el software y la publicación. (Radles et al, 2017) 
 
Jupyter Notebook tiene una buena acogida en ciencia de datos con más de 2,5 millones de 
publicaciones publicadas en GitHub a partir de septiembre de 2018. Con la capacidad de crear y 
mostrar códigos, números y símbolos, es ideal para crear análisis de datos de canalización y 
promover la comprensión. y gestionarlo de nuevo (Clarke et al. 2021). 
 
 
Figura 18-1: Jupyter notebook 
 Fuente: (Clarke eta al., 2021) 
 
1.11. Matriz de confusión 
 
En la investigación realizada por Sun (2021), la matriz de confusión bien conocida de 2 por 2 que 
comúnmente se usa ampliamente en bioestadística o evaluación crediticia, usando estos, no solo 
se obtienen las estadísticas de la tasa positiva verdadera (VP) y la tasa negativa verdadera (VN), 
sino también el valor predictivo positivo (FP) y el valor predictivo negativo (FN). 
23 
 
Tabla 3-1: Matriz de confusión. 
 
Predicción 
Positivos Negativos 
O
b
se
rv
a
ci
ó
n
 
Positivos 
Verdaderos positivos 
(VP) 
Falsos negativos (FN) 
Negativos Falsos positivos (FP) 
Verdaderos negativos 
(VN) 
Fuente: (Clarkeet al, 2021) 
Realizado por: Lemache, K., 2022. 
 
1.12. Métricas de evaluación 
 
El modelo se valora según su grado de coincidencia de acuerdo a la condición predicha respecto 
a su condición real (Pinto 2021, p. 26, 27). 
 
• VP Verdaderos positivos: Ordena de manera correcta la categoría positiva. 
• VN Verdaderos negativos: Ordena de manera correcta la categoría negativa. 
• FP Falsos positivos: Ordena como positiva una categoría negativa. 
• FN Falsos negativos: Ordena como negativa una categoría positiva. 
 
1.2.17. Exactitud 
 
Determina si un modelo tiene buen desempeño y si existe simetría entre FP y FN, su expresión 
matemática es (Polanía 2021, p. 11): 
 
Exactitud =
VP+VN
VP+VN+FP+FN
 (22) 
 
1.2.18. Sensibilidad 
 
Para Polanía (2021, p.11) la sensibilidad muestra el porcentaje de datos clasificados de forma 
correcta sobre el número total de datos de la clase, si el resultado obtenido es un porcentaje 
mínimo significa que no se detecta de forma correcta las muestras de cada clase y su expresión 
matemática es: 
 
Sensibilidad =
VP
VP+FN
 (23) 
 
24 
1.2.19. Precisión 
 
En la investigación realizada por Polanía (2021, p.11) la precisión indica el porcentaje de los 
datos clasificados correctamente sobre el número total de datos de la clase, si el resultado 
obtenido es un valor mínimo significa que existe un alto valor de falsos positivos: 
 
Precisión =
VP
VP+FP
 (24) 
 
1.2.20. F1-Score 
 
Según el Polanía (2021, p.11) f1-score expresa la media armónica entre la precisión y la 
sensibilidad, este resultado determina el desempeño global del modelo respecto a los datos de la 
clase. 
 
F1-Score=2* 
Precisión*Sensibilidad
Precisión+Sensibilidad
 (25) 
 
1.13. Curva característica operativa del receptor (ROC) 
 
Inca en conjunto con varios autores (2022, p. 1445), mencionan que estas curvas son el resultado 
del equilibro que existe entre relación de la sensibilidad expresada en la variable dependiente y 
la especificidad expresada en la variable independiente por cada valor de la muestra de datos 
positivos y negativos, además de la precisión global de los datos de entrenamiento. 
 
 
Figura 19-1: Relación entre curvas ROC. 
 Fuente: (Linn et al., 2019) 
 
1.2.21. Área bajo la curva (AUC) 
 
Se puede decir que el área bajo la curva ROC expresa que tan bueno es un modelo para 
clasificar las clases positivas y negativas, donde un área equivalente a 1 corresponde a un 
25 
clasificador perfecto y un área igual a 0,5 indica que la clasificación asigna de forma aleatoria 
los datos correspondientes a las diferentes clases (Quiroz et al. 2022, p. 57). 
 
 
Figura 20-1: Gráfica del área bajo la curva 
 Fuente: (Quiroz et al,. 2022, p.57) 
 
1.14. Overfitting y underfitting 
 
Según Zhang y de acuerdo con varios autores (2019), el overfitting y underfitting son dos de los 
contratiempos muy importantes que se encuentran en la fase de entrenamiento de un modelo de 
aprendizaje de máquina, un ajuste deficiente implica que la fase de entrenamiento es limitada y 
la precisión es relativamente baja, por el contrario, un sobreajuste indica que el modelo solo 
funciona bien en la fase de entrenamiento causando un déficit en la fase de prueba provocando 
una gran pérdida de adaptabilidad y flexibilidad. 
 
 
Gráfico 2-1: Overfitting y underfitting 
 Fuente: (Zhang et al., 2019) 
 
1.15. Validación cruzada 
 
Según Rodriguez (2019, p. 13), menciona que una validación cruzada es una de las técnicas más 
utilizada en un modelo de aprendizaje de máquina por clasificación, donde k es la división de 
muestras en un conjunto fijo dando como resultado la disminución del error estimado por cada 
26 
una de las iteraciones, cabe recalcar que se debe tener en cuenta el valor óptimo de la división 
de muestras puesto que, si se asigna una gran cantidad de divisores a una muestra, dicha 
muestra puede perder información importante que no se pude volver a recuperar. 
 
 
Figura 21-1: Validación cruzada sobre 100 muestras. 
 Fuente: (Rodriguez, 2019, p.13) 
 
 
27 
CAPÍTULO II 
 
 
2. MARCO METODOLÓGICO 
 
2.1. Colección de datos 
 
La comparación de los modelos de aprendizaje de máquina en la detección de fallas de 
turborreactores se utilizó un conjunto de datos que fue proporcionado por Prognostics Center of 
Excellence (PCoE) de la NASA. Se simularon varios conjuntos de datos que incluyen 
mediciones de series temporales de varias presiones, temperaturas y velocidades de equipos 
giratorios para el motor a reacción bajo seis condiciones de vuelo diferentes que comprendían 
un rango de valores para tres condiciones operativas: altitud (0 a 42 K pies), número de Mach (0 
a 0,84) y ángulo de resolución del acelerador (TRA) (20 a 100). La figura 1-2, muestra una 
captura de imagen del repositorio de PCoE de la NASA. 
 
 
Figura 1-2: Repositorio de

Continuar navegando

Contenido elegido para ti