Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO FACULTAD DE MECÁNICA CARRERA MANTENIMIENTO INDUSTRIAL “COMPARACIÓN DE MODELOS DE APRENDIZAJE DE MÁQUINA PARA LA DETECCIÓN DE FALLAS EN TURBORREACTORES DE DOBLE FLUJO” Trabajo de Integración Curricular Tipo: Proyecto de Investigación Presentado para optar al grado académico de: INGENIERA EN MANTENIMIENTO INDUSTRIAL AUTORA: KARINA MISHELL LEMACHE CAIZA Riobamba – Ecuador 2022 ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO FACULTAD DE MECÁNICA CARRERA MANTENIMIENTO INDUSTRIAL “COMPARACIÓN DE MODELOS DE APRENDIZAJE DE MÁQUINA PARA LA DETECCIÓN DE FALLAS EN TURBORREACTORES DE DOBLE FLUJO” Trabajo de Integración Curricular Tipo: Proyecto de Investigación Presentado para optar al grado académico de: INGENIERA EN MANTENIMIENTO INDUSTRIAL AUTORA: KARINA MISHELL LEMACHE CAIZA DIRECTOR: Ing. FÉLIX ANTONIO GARCÍA MORA Riobamba – Ecuador 2022 ii © 2022, Karina Mishell Lemache Caiza Se autoriza la reproducción total o parcial, con fines académicos, por cualquier medio o procedimiento, incluyendo cita bibliográfica del documento, siempre y cuando se reconozca el Derecho de Autor. iii Yo, Karina Mishell Lemache Caiza, declaro que el presente Trabajo de Integración Curricular es de mi autoría y los resultados del mismo son auténticos. Los textos en el documento que provienen de otras fuentes están debidamente citados y referenciados. Como autora asumo la responsabilidad legal y académica de los contenidos de este Trabajo de Integración Curricular; el patrimonio intelectual pertenece a la Escuela Superior Politécnica de Chimborazo. Riobamba, 24 de noviembre de 2022 Karina Mishell Lemache Caiza 060502569-1 iv ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO FACULTAD DE MECÁNICA CARRERA MANTENIMIENTO INDUSTRIAL El Tribunal del Trabajo de Integración Curricular certifica que: El Trabajo de Integración Curricular; Tipo: Proyecto de Investigación, “COMPARACIÓN DE MODELOS DE APRENDIZAJE DE MÁQUINA PARA LA DETECCIÓN DE FALLAS EN TURBORREACTORES DE DOBLE FLUJO”, realizado por la señorita: KARINA MISHELL LEMACHE CAIZA, ha sido minuciosamente revisado por los Miembros del Tribunal del Trabajo de Integración Curricular, el mismo que cumple con los requisitos científicos, técnicos, legales, en tal virtud el Tribunal Autoriza su presentación. FECHA Ing. Marco Antonio Ordoñez Vinan 2022-11-24 PRESIDENTE DEL TRIBUNAL Ing. Félix Antonio García Mora 2022-11-24 DIRECTOR DE TRABAJO DE INTEGRACIÓN CURRICULAR Ing. Vanessa Lorena Valverde González 2022-11-24 MIEMBRO DE TRIBUNAL v DEDICATORIA Durante el viaje de mi vida he desarrollado una gran variedad de destrezas y habilidades que nunca imagine desarrollar, también entendí que los éxitos alcanzados se disfrutan más en compañía, la misma que te ayuda a seguir adelante cuando las cosas se complican, por esto quiero dedicar este trabajo de integración curricular a mis padres, de manera especial a mi madre, pues sin su apoyo incondicional no lo habría logrado, ella inculcó en mí la responsabilidad y deseos de superación, en ella tengo mi modelo a seguir pues sus virtudes y su gran corazón me llevan admirarla cada día más. Karina vi AGRADECIMIENTO Gracias a mis padres por ser los principales promotores de mis sueños, por confiar y creer en mis expectativas, por sus consejos, valores y principios que siempre me han inculcado, pese a las adversidades e inconvenientes que se presentaron ellos siempre me esperaban con los brazos abiertos. A mis docentes por haber compartido sus conocimientos a lo largo de mi preparación profesional, de manera especial a el ingeniero Félix García y la ingeniera Vanessa Valverde, quienes hicieron posible la culminación de este trabajo. A todos mis amigos que me han brindado un gran apoyo moral y humano, necesarios en los momentos difíciles de mi vida personal e incluso profesional, gracias infinitas por toda su ayuda y buena voluntad. Karina vii TABLA DE CONTENIDO ÍNDICE DE TABLAS ............................................................................................................ xiii ÍNDICE DE FIGURAS ....................................................................................................... xiiiiii INDICE DE GRÁFICOS ..................................................................................................... xvxv ÍNDICE DE ABREVIATURAS ........................................................................................... xvii ÍNDICE DE ANEXOS .......................................................................................................... xvii RESUMEN ........................................................................................................................... xviii SUMMARY ..........................................................................................................................xixix INTRODUCCIÓN ..................................................................................................................... 1 CAPITULO I 1. MARCO TÉORICO REFERENCIAL...................................................................... 4 1.1. Turborreactores de doble flujo .................................................................................. 4 1.2. Partes de un turborreactor ......................................................................................... 5 1.2.1. Fan ............................................................................................................................... 5 1.2.2. Compresor .................................................................................................................... 5 1.2.3. Turbina ......................................................................................................................... 5 1.2.4. Cámara de combustión ................................................................................................ 6 1.2.5. Difusor ......................................................................................................................... 6 1.3. Ciclo Brayton .............................................................................................................. 7 1.4. Detección de fallas en turborreactores de doble flujo .............................................. 7 1.5. Inteligencia artificial (IA) ........................................................................................... 7 1.6. Machine Learning (ML) ............................................................................................. 8 1.2.6. Tipos de aprendizaje..................................................................................................... 8 1.2.6.1. Aprendizaje supervisado ............................................................................................... 8 1.2.6.2. Aprendizaje no supervisado .......................................................................................... 9 1.2.6.3. Aprendizaje por refuerzo .............................................................................................. 9 1.7. Pasos para construir un modelode Machine Learning ............................................ 9 1.8. Modelos de clasificación ........................................................................................... 10 1.2.7. Modelos lineales ......................................................................................................... 10 1.2.8. Modelos de árbol ........................................................................................................ 10 1.2.9. Redes neuronales ....................................................................................................... 10 1.2.10. Random Forest............................................................................................................ 11 1.2.10.1. Explicación matemática .............................................................................................. 12 viii 1.2.10.2. Hiperparámetros ......................................................................................................... 13 1.2.11. Estrategias de ajuste de hiperparámetros .................................................................. 14 1.2.12. Support Vector Machine ............................................................................................ 14 1.2.12.1. Caso linealmente separable ........................................................................................ 15 1.2.12.2. Clasificación no lineal ................................................................................................ 16 1.2.13. XGBoost ..................................................................................................................... 17 1.2.13.1. Expresión matemática ................................................................................................. 18 1.2.14. Gradient Boosting ...................................................................................................... 19 1.2.14.1. Expresión matemática ................................................................................................. 19 1.9. Redes Neuronales LSTM .......................................................................................... 20 1.10. Python ........................................................................................................................ 20 1.2.15. Librerías de Python .................................................................................................... 21 1.2.15.1. Pandas ........................................................................................................................ 21 1.2.15.2. Matplotlib ................................................................................................................... 21 1.2.15.3. Scikit-learn.................................................................................................................. 21 1.2.15.4. Numpy ......................................................................................................................... 22 1.2.16. Jupyter notebooks ...................................................................................................... 22 1.11. Matriz de confusión .................................................................................................. 22 1.12. Métricas de evaluación ............................................................................................. 23 1.2.17. Exactitud .................................................................................................................... 23 1.2.18. Sensibilidad ................................................................................................................ 23 1.2.19. Precisión ..................................................................................................................... 24 1.2.20. F1-Score ..................................................................................................................... 24 1.13. Curva característica operativa del receptor (ROC) ............................................... 24 1.2.21. Área bajo la curva (AUC) .......................................................................................... 24 1.14. Overfitting y underfitting ......................................................................................... 25 1.15. Validación cruzada ................................................................................................... 25 CAPÍTULO II 2. MARCO METODOLÓGICO .................................................................................. 27 2.1. Colección de datos ..................................................................................................... 27 2.2. Descripción de los datos ............................................................................................ 27 2.3. Preprocesamiento de datos ....................................................................................... 29 2.3.1. Librerías utilizadas para la elaboración del modelo de aprendizaje de máquina ..... 29 2.3.2. Lectura del conjunto de datos .................................................................................... 29 2.3.3. Asignación de nombres a las columnas ..................................................................... 31 ix 2.3.4. Análisis exploratorio .................................................................................................. 31 2.3.5. Limpieza de datos ....................................................................................................... 32 2.3.6. Análisis de la distribución de probabilidad de densidad ........................................... 34 2.3.7. Análisis del diagrama de caja del conjunto de datos ................................................. 35 2.3.8. Matriz de correlación de Pearson .............................................................................. 36 2.3.9. Sobre-muestreo (Oversampling) ................................................................................ 36 2.3.9.1. Sobre-muestreo del conjunto de datos de entrenamiento ............................................ 36 2.3.9.2. Sobre-muestreo del conjunto de datos de prueba........................................................ 38 2.3.10. División del conjunto de datos para entrenamiento y prueba de los modelos .......... 39 2.3.10.1. División del conjunto de entrenamiento ...................................................................... 39 2.3.10.2. División del conjunto de prueba ................................................................................. 41 2.4. Extracción de características ................................................................................... 42 2.5. Entrenamiento del modelo ....................................................................................... 42 2.5.1. Random Forest ........................................................................................................... 42 2.5.1.1. Optimización de hiperparámetros ............................................................................... 42 2.5.1.2. Creación de un bosque aleatorio para la optimización de hiperparámetros .............. 42 2.5.1.3. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 43 2.5.1.4. Entrenamiento de la búsqueda aleatoria .................................................................... 43 2.5.2. XGBoost ..................................................................................................................... 44 2.5.2.1. Optimización de hiperparámetros ............................................................................... 44 2.5.2.2. Creación de un aumento de gradiente para la optimización de hiperparámetros ....... 44 2.5.2.3. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 44 2.5.2.4. Entrenamiento de la búsqueda aleatoria ....................................................................45 2.5.3. Gradient Boosting ...................................................................................................... 45 2.5.3.1. Optimización de hiperparámetros ............................................................................... 45 2.5.3.2. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 46 2.5.3.3. Entrenamiento de la búsqueda aleatoria .................................................................... 46 2.5.4. Optimización de XGBoost utilizando los hiperparámetros de Gradient Boosting .... 47 2.5.4.1. Optimización de hiperparámetros ............................................................................... 47 2.5.4.2. Cuadrícula aleatoria para establecer los hiperparámetros más importantes ............. 47 2.5.4.3. Entrenamiento de la búsqueda aleatoria .................................................................... 48 2.6. Predicción de la vida útil restante (RUL) ................................................................ 48 CAPÍTULO III 3. MARCO DE RESULTADOS Y DISCUSIÓN DE LOS RESULTADOS ............. 50 3.1. Exploración de los resultados de entrenamiento .................................................... 50 x 3.1.1. Análisis de los resultados de la matriz de confusión ................................................. 50 3.1.1.1. Random Forest............................................................................................................ 50 3.1.1.2. XGBoost ...................................................................................................................... 53 3.1.1.3. Gradient Boosting ....................................................................................................... 56 3.1.1.4. Optimización de XGBoost utilizando los hiperparámetros del Gradient Boosting ..... 59 3.1.1.5. Support Vector Machine ............................................................................................. 60 3.1.2. Análisis de los resultados obtenidos en las curvas de aprendizaje ............................ 61 3.1.2.1. Random Forest............................................................................................................ 62 3.1.2.2. XGBoost ...................................................................................................................... 62 3.1.2.3. Gradient Boosting ....................................................................................................... 63 3.1.2.4. Optimización de XGBoost con la optimización de hiperparámetros de Gradient Boosting. ..................................................................................................................... 64 3.1.2.5. Support Vector Machine ............................................................................................. 64 3.1.3. Análisis de los resultados obtenidos en la curva ROC .............................................. 65 3.1.3.1. Random Forest............................................................................................................ 65 3.1.3.2. XGBoost ...................................................................................................................... 66 3.1.3.3. Gradient Boosting ....................................................................................................... 66 3.1.3.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting ................ 67 3.1.3.5. Support Vector Machine ............................................................................................. 67 3.2. Análisis de los resultados del conjunto de datos de prueba ................................... 68 3.2.1. Análisis de los resultados de la matriz de confusión ................................................. 68 3.2.1.1. Random Forest............................................................................................................ 68 3.2.1.2. XGBoost ...................................................................................................................... 71 3.2.1.3. Gradient Boosting ....................................................................................................... 74 3.2.1.4. Optimización de XGBoost utilizando los hiperparámetros del Gradient Boosting ..... 77 3.2.1.5. Support Vector Machine ............................................................................................. 78 3.2.2. Análisis de los resultados obtenidos en las curvas de aprendizaje ............................ 79 3.2.2.1. Random Forest............................................................................................................ 79 3.2.2.2. XGBoost ...................................................................................................................... 80 3.2.2.3. Gradient Boosting ....................................................................................................... 81 3.2.2.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting. ............... 81 3.2.2.5. Support Vector Machine ............................................................................................. 82 3.2.3. Análisis de los resultados obtenidos en la curva ROC .............................................. 83 3.2.3.1. Random Forest............................................................................................................ 83 3.2.3.2. XGBoost ...................................................................................................................... 83 3.2.3.3. Gradient Boosting ....................................................................................................... 84 3.2.3.4. Optimización de XGBoost con los hiperparámetros de Gradient Boosting ................ 84 xi 3.2.3.5. Support Vector Machine ............................................................................................. 85 3.3. Comparación de los modelos de aprendizaje de máquina ..................................... 85 3.3.1. Conjunto de entrenamiento ....................................................................................... 85 3.3.2. Conjunto de prueba .................................................................................................... 86 3.4. Constatación de la hipótesis ..................................................................................... 87 3.5. Predicción de la vida útil restante ............................................................................ 88 CONCLUSIONES .................................................................................................................... 91 RECOMENDACIONES .......................................................................................................... 93 BIBLIOGRAFÍA ANEXOS xii ÍNDICE DE TABLAS Tabla 1-1: Principales hiperparámetros en Random Forest .................................................. 14 Tabla 2-1: Kernels más utilizados por el algoritmo SVM. ................................................... 15 Tabla 3-1: Matriz de confusión. ........................................................................................... 23 Tabla 1-2: Mejores hiperparámetros de Random Forest ....................................................... 44 Tabla 2-2: Mejores hiperparámetros de XGBoost ................................................................ 45 Tabla 3-2: Mejores hiperparámetros. .................................................................................... 47 Tabla 4-2: Mejores hiperparámetros. .................................................................................... 48 Tabla 5-2: Capas utilizadas para el ajuste de parámetros del modelo LSTM. ....................... 49 Tabla 1-3: Resultados de la matriz de confusión con parámetros por defecto………...……51 Tabla 2-3: Resultados de la matriz de confusión con la optimizaciónde hiperparámetros….52 Tabla 3-3: Resultados de la matriz de confusión obtenida con los parámetros por defecto...54 Tabla 4-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…55 Tabla 5-3: Resultados de la matriz de confusión con parámetros por defecto……………...57 Tabla 6-3: Resultados de la matriz de confusión con la optimización de hiperparámetros. 58 Tabla 7-3: Resultados de la matriz de confusión con parámetros por defecto………………60 Tabla 8-3: Resultados de la matriz de confusión con parámetros por defecto………………61 Tabla 9-3: Resultados de la matriz de confusión con parámetros por defecto………………69 Tabla 10-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…70 Tabla 11-3: Resultados de la matriz de confusión obtenida con los parámetros por defecto…72 Tabla 12-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…73 Tabla 13-3: Resultados de la matriz de confusión con parámetros por defecto………………75 Tabla 14-3: Resultados de la matriz de confusión con la optimización de hiperparámetros…76 Tabla 15-3: Resultados de la matriz de confusión con parámetros por defecto………………78 Tabla 16-3: Resultados de la matriz de confusión con parámetros por defecto………………79 Tabla 17-3: Metricas de evaluación de algoritmos ejecutados por defecto…………………...85 Tabla 18-3: Metricas de evaluación de algoritmos hiperparámetrizados……………………..86 Tabla 19-3: Metricas de evaluación de algoritmos ejecutados por defecto…………………...86 Tabla 20-3: Metricas de evaluación de algoritmos hiperparámetrizados………………….….87 Tabla 21-3: Valores de RMSE…………………………………………………………….….89 xiii ÍNDICE DE FIGURAS Figura 1-1: Ejemplo de un turborreactor de doble flujo .......................................................... 4 Figura 2-1: Esquema funcional de un turborreactor ................................................................ 4 Figura 3-1: Compresor axial. (a) Rotor estator y (b) vista de un compresor axial ................... 5 Figura 4-1: Cámaras de combustión: (a) anular, (b) tubular y (c) tubular-anular. ................... 6 Figura 5-1: Tipos de difusores: (a) subsónico y (b) supersónico. ............................................ 6 Figura 6-1: Componentes del motor a reacción y estados termodinámicos. ............................ 7 Figura 7-1: Técnicas de Machine Learning. ............................................................................ 8 Figura 8-1: Arquitectura de una red neuronal convolucional profunda. ................................ 11 Figura 9-1: Random Forest Classifier ................................................................................... 11 Figura 10-1: Algoritmo Random Forest ................................................................................. 12 Figura 11-1: Hiperplanos de separación ................................................................................. 15 Figura 12-1: Hiperplanos de separación. ................................................................................ 16 Figura 13-1: Hiperplanos de separación. ................................................................................ 17 Figura 14-1: Algoritmo XGBoost........................................................................................... 18 Figura 15-1: Algoritmo XGBoost........................................................................................... 19 Figura 16-1: Estructura de una red LSTM .............................................................................. 20 Figura 17-1: Logo de la aplicación de Python. ....................................................................... 21 Figura 18-1: Jupyter notebook................................................................................................ 22 Figura 19-1: Relación entre curvas ROC. ............................................................................... 24 Figura 20-1: Gráfica del área bajo la curva ............................................................................ 25 Figura 21-1: Validación cruzada sobre 100 muestras. ............................................................ 26 Figura 1-2: Repositorio de datos de PCoE de la NASA. ....................................................... 27 Figura 2-2: Conjunto de datos de simulación de degradación del motor turbofan. ................ 28 Figura 3-2: Conjunto de datos de entrenamiento. .................................................................. 28 Figura 4-2: Conjunto de datos de prueba. .............................................................................. 28 Figura 5-2: Conjunto de vector de valores reales de vida útil restante (RUL). ...................... 29 Figura 6-2: Distribución de probabilidad de densidad de entrenamiento y prueba. ............... 34 Figura 7-2: Diagrama de caja del conjunto de datos de entrenamiento y prueba. .................. 35 Figura 8-2: Matriz de correlación de Pearson. ....................................................................... 36 Figura 1-3: Matriz de confusión clasificador Random Forest……………...……...……..50 Figura 2-3: Matriz de confusión parámetros optimizados RF………………………..….51 Figura 3-3: Matriz de confusión del clasificador XGBoost………………………...…....53 Figura 4-3: Matriz de confusión del clasificador……..………………………………….54 Figura 5-3: Matriz de confusión de Gradient Boosting………………………………….56 xiv Figura 6-3: Matriz de confusión del clasificador optimizado……………………………….57 Figura 7-3: Matriz de confusión del clasificador……………………………………………59 Figura 8-3: Matriz de confusión clasificador SVM…………………………………………60 Figura 9-3: Curva de aprendizaje RandomForest…………………………………………...62 Figura 10-3: Curva de aprendizaje XGBoost………………………………………………...63 Figura 11-3: Curva de aprendizaje Gradient Boosting……………………………………….63 Figura 12-3: Curva de aprendizaje del modelo………………………………………………64 Figura 13-3: Curva de aprendizaje del modelo……………………………………………....65 Figura 14-3: Curva de ROC Random Forest…………………………………………………65 Figura 15-3: Curva ROC XGBoost…………………………………………………………..66 Figura 16-3: Curva ROC Gradient Boosting…………………………………………………66 Figura 17-3: Curva ROC modelo entrenado…………………………………………………67 Figura 18-3: Curva ROC conjunto de entrenamiento algoritmo SVM………………………67 Figura 19-3: Matriz de confusión clasificador Random Forest………………………………68 Figura 20-3: Matriz de confusión Random Forest…………………………………………...69 Figura 21-3: Matriz de confusión del clasificador XGBoost………………………………...71 Figura 22-3: Matriz de confusión del clasificador…………………………………………...72 Figura 23-3: Matriz de confusión del clasificador……………………………………………74 Figura 24-3: Matriz de confusión Gradient Boosting………………………………………...75 Figura 25-3: Matriz de confusión del clasificador……………………………………………77 Figura 26-3: Matriz de confusión del clasificador SVM……………………………………..78 Figura 27-3: Curva de aprendizaje RandomForest…………………………………...………80 Figura 28-3: Curva de aprendizaje XGBoost………………………………………………...80 Figura 29-3: Curva de aprendizaje Gradient Boosting……………………………………….81 Figura 30-3: Curva de aprendizaje…………………………………………………………...82 Figura 31-3: Curva de aprendizaje clasificador SVM………………………………………..82 Figura 32-3: Curva ROC de Random Forest…………………………………………………83 Figura 33-3: Curva ROC XGBoost…………………………………………………………..83 Figura 34-3: Curva ROC Gradient Boosting…………………………………………………84 Figura 35-3: Curva ROC del modelo entrenado……………………………………………...84 Figura 36-3: Curva ROC del modelo entrenado……………………………………………...85 Figura 37-3: Constatación de la hipótesis……………………………………………………88 xv INDICE DE GRÁFICOS Gráfico 1-1: Proceso de construcciónde un modelo de Machine Learning. ............................. 10 Gráfico 2-1: Overfitting y underfitting ..................................................................................... 25 Gráfico 1-2: Conjunto de datos de entrenamiento .................................................................... 29 Gráfico 2-2: Lectura y comprensión del conjunto de datos. ..................................................... 30 Gráfico 3-2: Conjunto de datos RUL ....................................................................................... 30 Gráfico 4-2: Distribución de datos para cada grupo de trabajo. ............................................... 31 Gráfico 5-2: Información del conjunto de datos de entrenamiento y prueba ............................ 32 Gráfico 6-2: Información del conjunto de datos RUL. ............................................................. 32 Gráfico 7-2: Búsqueda de valores faltantes o nulos. ................................................................ 33 Gráfico 8-2: Búsqueda de datos duplicados. ............................................................................ 33 Gráfico 9-2: Búsqueda de datos duplicados. ............................................................................ 33 Gráfico 10-2: Datos de la variable objetivo del conjunto de entrenamiento............................... 37 Gráfico 11-2: Sobremuestreo de la variable objetivo. ................................................................ 37 Gráfico 12-2: Conjunto de datos antes y despues del sobre-muestreo. ...................................... 38 Gráfico 13-2: Datos de la variable objetivo del conjunto de prueba. ......................................... 38 Gráfico 14-2: Sobremuestreo de la variable objetivo. ................................................................ 39 Gráfico 15-2: Conjunto de datos antes y despues del sobre-muestreo. ...................................... 39 Gráfico 16-2: División de datos para entrenamiento y prueba. .................................................. 40 Gráfico 17-2: Valores de entrenamiento y prueba del modelo. .................................................. 40 Gráfico 18-2: División de datos para entrenamiento y prueba. .................................................. 41 Gráfico 19-2: Datos para entrenamiento y prueba del modelo ................................................... 41 Gráfico 1-3: Comparación de los valores obtenidos de la matriz de confusión……………....53 Gráfico 2-3: Comparación de los valores obtenidos de la matriz de confusión………………56 Gráfico 3-3: Comparación de los valores obtenidos de la matriz de confusión………………59 Gráfico 4-3: Comparación de los valores obtenidos de la matriz de confusión………………71 Gráfico 5-3: Comparación de los valores obtenidos de la matriz de confusión………………74 Gráfico 6-3: Comparación de los valores obtenidos de la matriz de confusión……………....77 Gráfico 7-3: Relación entre RUL predicho y RUL real………………………………………89 xvi ÍNDICE DE ABREVIATURAS AUC Área bajo la curva C-MAPSS Comercial Modular Aero-Propulsion System Simulation EP Elemento de proceso FP Falso Positivo FN Falso Negativo GBDT Árboles de decisión potenciados por gradientes IA: Inteligencia Artificial LSTM: Long Short Term Memory o Memoria a corto y largo plazo ML: Machine Learning o aprendizaje de máquina PCoE Prognostics Center of Excellence RNN Recurrent Neural Network o redes neuronales recurrentes ROC Receiver Operating Characteristic o característica operativa del receptor RUL Tiempo de vida útil remanente SVM Support Vector Machine o máquina de vectores de soporte TRA Ángulo de resolución del acelerador VP Verdadero Positivo VN Verdadero Negativo xvii ÍNDICE DE ANEXOS ANEXO A: CÓDIGO DE PROGRAMACIÓN xviii RESUMEN El objetivo de este trabajo fue comparar los modelos de aprendizaje de máquina para la detección de fallas en turborreactores de doble flujo. La solución aplicada en la predicción se realizó mediante el análisis de los datos, obtenidos en las mediciones del equipo cuyo aprendizaje automático es una tecnología que predice los resultados en función de un modelo entrenándolo con datos y analizando su comportamiento de salida, con el fin de pronosticar fallas en las máquinas antes de que estas ocurran; entonces se realizó un estudio comparativo del conjunto existente de algoritmos de aprendizaje automático para anunciar las fallas y la vida útil remanente del motor. Los modelos se elaboraron en base a los conjuntos de datos del motor turboventilador extraído del Repositorio del Centro de Excelencia de Pronósticos de la NASA debido a sus tres configuraciones operativas y 21 columnas de sensores. En un conjunto de entrenamiento se construyó un modelo y se verificó con un conjunto de datos de prueba, para ello se seleccionó 5 algoritmos: Random Forest, XGBoost, Gradient Boosting, SVM y un modelo hibrido creado como resultado de la unión de los modelos XGBoost y Gradient Boosting. Los resultados obtenidos se compararon con datos reales para verificar la precisión de cada algoritmo, resultando el algoritmo Random Forest como el mejor modelo ejecutado con parámetros normales y optimizados con un f1-score de 99.949% y 99.99% respectivamente. Finalmente, se descubrió que en la base de datos no es posible realizar una extracción de características utilizando aprendizaje automático debido a su peculiaridad en las condiciones operativas. También es importante mencionar que el modelo SVM no se fue ejecutado con hiperparámetros. Es recomendable utilizar métodos de comparación de aprendizaje profundo por su precisión al momento de clasificar los datos reduciendo drásticamente la carga computacional al momento de ejecutar el modelo. Palabras clave: <MODELOS DE APRENDIZAJE> <MANTENIMIENTO BASADO EN LOS DATOS> <TURBORREACTORES DE DOBLE FLUJO> <APRENDIZAJE AUTOMÁTICO> <RANDOM FOREST>. 0098-DBRA-UPT-2023 xix SUMMARY The objective of this work was to compare machine learning models for the detection of failures in double flow turbojets. The applied solution in the prediction was performed by analyzing the data, obtained in the measurements of the equipment whose machine learning is a technology that predicts the results based on a model by training it with data and analyzing its output behavior. In order to predict machine failures before they occur; then a comparative study of the existing set of machine learning algorithms to announce failures and the remaining useful life of the engine was performed. The models were built based on turbofan engine data sets extracted from the NASA Prediction Center of Excellence Forecasting Repository due to its three operational configurations and 21 sensor columns. In a training set a model was built and verified with a test data set, for this purpose 5 algorithms were selected: Random Forest, XGBoost, Gradient Boosting, SVM and a hybrid model created as a result of the union of the XGBoost and Gradient Boosting models. The results obtained were compared with real data to verify the accuracy of each algorithm, resulting in the Random Forest algorithm as the best model executed with normal and optimized parameters with an f1-score of 99.949% and 99.99% respectively. Finally, it was found that in the database it is not possible to perform feature extraction using machine learning due to its peculiarity in the operating conditions. It is also important to mention that the SVM model was not run with hyperparameters. It is advisable to use deep learning comparison methods because of their accuracy when classifying the data, drastically reducing the computational load when running the model. Keywords: <LARNING MODELS> <DATA-BASED MAINTENANCE> <DUAL FLOW TURBOJET> <MACHINE LEARNING> <RANDOM FOREST>.Lic. Sandra Paulina Porras Pumalema C.I. 0603357062 1 INTRODUCCIÓN La evolución de la tecnología conjuntamente con la inteligencia artificial y el desarrollo de la industria 4.0 crean nuevos retos y técnicas en las diferentes aplicaciones importantes como en los tipos de mantenimiento preventivo y correctivo, para ello es importante basarse en dos enfoques principales del mantenimiento tales como la detección de fallas y el tiempo de vida útil en una máquina; entonces el desarrollo como tal basados en el aprendizaje de maquina o comúnmente llamado Machine Learning facilita el trabajo al analizar un sinnúmero de datos y determinar el resultado o falla origen con respecto a los problemas. La propuesta metodológica detallada a continuación busca comparar de manera exacta la predicción de distintos modelos de aprendizaje de maquina o Machine Learning, permitiendo así supervisar su clasificación con la finalidad de determinar cuál es el correcto modelo de aprendizaje en turborreactores de doble flujo con respecto al análisis de fallas y vida útil. Para el contexto del trabajo se utiliza un turborreactor de doble flujo utilizado en sistemas de propulsión de aviones, conociendo que su trabajo es mediante, entrada, compresión, combustión y escape de gases; se conoce que en la NASA ha empleado un sistema mediante Machine Learning para análisis de falla en motores constituido de un sinnúmero de sensores que permitan recolectar datos. El uso de la Inteligencia Artificial (IA) hoy en día es un tema muy importante debido a su capacidad de análisis de datos más profundos mediante redes neuronales; cuando los algoritmos son de autoaprendizaje, los datos tienen la capacidad de volver a propiedad intelectual y al involucrarse con la aplicación de Machine Learning permitiendo que los sistemas tengan la capacidad de aprender y mejorar automáticamente sin la necesidad de algún algoritmo de programación. Justificación y actualidad La manufactura inteligente y la innovación de la industria 4.0 a nivel mundial forman parte de la transformación tecnológica para crear sistemas de gestión y formas de hacer negocios, que permitan optimizar los procesos de fabricación, alcanzar una mayor flexibilidad y eficiencia, así como responder de forma oportuna a las necesidades de su mercado (Ynzunza et al. 2017, p. 33-45). La industria 4.0 está constituida de tecnologías basadas en la inteligencia artificial que permiten 2 al ser humano analizar grandes cantidades de información (Big data). Estas tecnologías están siendo aprovechadas por el ser humano para beneficiarse de mejoras significativas en casi todas las situaciones, pero también obliga al ser humano a prevenir y analizar las posibles desventajas (Rouhiainen, 2018). La necesidad de monitorear constantemente el estado de la propiedad física y la presencia de una gran cantidad de datos industriales, refleja que aplicar Machine Learning es la mejor opción para lograr un diagnóstico automático y confiable acerca del estado de las máquinas, además la disponibilidad de estrategias de mantenimiento causadas por máquinas le permitirá obtener grandes ventajas en el rendimiento, seguridad, optimización y toma de decisiones; así mismo el reconocimiento automático de patrones es muy deseable ya que a través de una clasificación automática se puede detectar e identificar fallos de tal forma que el personal logre tomar una resolución de mantenimiento sin la necesidad de un técnico (Chen, et al., 2019). En nuestro país se ha llevado a cabo varias investigaciones utilizando métodos de aprendizaje automático en distintas áreas, no obstante, pocos estudios se enfocan a la industria del mantenimiento. Por esta razón, la Escuela Superior Politécnica de Chimborazo carece de estudios relacionados con las aplicaciones de aprendizaje automático enfocado al mantenimiento industrial; es por ello que se ofrece un marco innovador y moderno para mejorar la calidad del mantenimiento industrial en la industria del mantenimiento. Planteamiento del problema Actualmente la industria aérea tanto en sus aviones comerciales como militares utilizan turbofanes o turbohélices por sus excelentes funciones al momento de la puesta en marcha , una vez que se han abarcado y cubierto las zonas de vuelo atmosférico tanto en altitud y velocidad, se puede imaginar qué sucederá en el caso de que el avión presente complicaciones debido a una falla dentro del monitoreo constante de un turbofán ocasionando problemas de rendimiento, accidentes aéreos e incluso se puede llegar a perder vidas humanas. Debido a esto surge la necesidad de contar con técnicas de monitoreo y diagnostico automático, que sea confiable y brinde gran precisión. Hipótesis Utilizando varios métodos de Machine Learning se detectan fallas en turborreactores de doble flujo. 3 Variable dependiente Detección de fallas Variable independiente • Matriz de confusión. • Precisión • Exactitud Objetivos Objetivo general Comparar los modelos de aprendizaje de máquina para la detección de fallas en turborreactores de doble flujo. Objetivos específicos • Realizar el preprocesamiento de datos de fallas en turborreactores de doble flujo. • Dividir los datos de fallas en turborreactores de doble flujo para entrenamiento y prueba de los modelos. • Determinar las características de extracción estadísticas de los modelos. • Diseñar y comprobar la precisión de los algoritmos para la detección de fallas en turborreactores de doble flujo. 4 CAPITULO I 1. MARCO TÉORICO Y MARCO CONCEPTUAL 1.1. Turborreactores de doble flujo Un motor turborreactor de las aeronaves es un sistema aerodinámico extremadamente complejo que funciona en entornos difíciles, consta de una unidad de admisión de aire, un soplador, un generador de aire y una tobera de escape. En el turbofán, una parte activa de la turbina se utiliza para impulsar el ventilador. En general, los motores turbofanes son más económicos y eficientes que los jets subsónicos. El diámetro del ventilador también está limitado aerodinámicamente en lo que respecta a la compresión (Contreras 2015). Figura 1-1: Ejemplo de un turborreactor de doble flujo Fuente: (Contreras, 2015) Figura 2-1: Esquema funcional de un turborreactor Fuente: (Franchini et al., 2016) 5 1.2. Partes de un turborreactor 1.2.1. Fan Sanches (2021, p.5), en su contexto define al fan como un flujo másico de aire suministrado al motor por un ventilador, entonces el flujo de aire primario es comprimido por compresores de baja y alta presión, mientras que el flujo de aire secundario corresponde a un flujo de aire más alto a través del ventilador y alrededor del núcleo del motor; cabe señalar que el líquido primario que pasa por el núcleo se mezcla con el combustible de combustión. 1.2.2. Compresor De acuerdo con Suárez (2021), se conoce que un compresor se integra al motor cuando la presión a la entrada del aire aumenta considerablemente. Los denominados compresores axiales forman parte de dichos motores cuentan con distintas fases con un par de series que constan de una serie de etapas y a su vez, constan de dos series de álabes. El primer para de alabes es giratorio, diseñados aerodinámicamente para aumentar el flujo de aire y su energía cinética. La segunda serie, llamada estator, son álabes de configuración aerodinámica, reducen la componente cinética del flujo, restringiendo el movimiento y aumentando la componente estática, es decir, la presión del aire. Figura 3-1: Compresor axial. (a) Rotor estator y (b) vista de un compresor axial Fuente: (Franchini, et al., 2016). 1.2.3. Turbina Según Sanches (2021, p. 5), menciona a la turbina como el principal elemento derecolección de energía necesaria para arrancar el compresor y el ventilador, las etapas están separadas por turbinas de alta y baja presión pero cada etapa tiene su propio eje, con la turbina de baja presión impulsando el ventilador y el compresor de baja presión, y la turbina de alta presión impulsando 6 el compresor de alta capacidad, al expandirse el gas combustible absorbe energía haciendo que la turbina gire a alta velocidad, generando así la energía necesaria para accionar el eje y su respectivo ventilador y/o compresor. 1.2.4. Cámara de combustión Montazeri de acuerdo con varios autores (2019, p. 102), concuerdan que las cámaras de combustión están formadas por tubos de llama en donde se produce la combustión, el combustible automatizado y vaporizado se inyecta automáticamente a través de un inyector dado que la combustión se realiza en régimen subsónico y el flujo de aire tras el compresor se caracteriza por elevadas velocidades, a la entrada del tubo de llama se sitúa un difusor de corriente que aumenta la presión y disminuye la velocidad. Figura 4-1: Cámaras de combustión: (a) anular, (b) tubular y (c) tubular-anular. Fuente: (Franchini et al., 2016) 1.2.5. Difusor Franchini y López (2016, p. 286), consideran que el flujo de aire actúa sobre el turborreactor para ralentizar el flujo de corriente y evitar desprendimiento y uniformidad de la corriente de entrada al compresor, la deceleración actual de corriente es necesaria porque el número de Mach de un compresor axial suele estar alrededor de 0,4; mientras que los turbofanes normalmente funcionan con un número de Mach de 0,7. Figura 5-1: Tipos de difusores: (a) subsónico y (b) supersónico. Fuente: (Franchini et al., 2016) 7 1.3. Ciclo Brayton El ciclo ideal de Brayton consta de cuatro procesos termodinámicos, dos de los cuales son isobáricos (o presión constante) y los otros dos son isentrópicos (o entropía constante), estos dos procesos isotrópicos también son procesos adiabáticos, es decir, no entra ni sale materia ni calor del líquido durante el proceso (Falcão 2018, p. 13, 14). Figura 6-1: Componentes del motor a reacción y estados termodinámicos. Fuente: (Falcão, 2018) 1.4. Detección de fallas en turborreactores de doble flujo Actualmente los turborreactores se desarrollan como controladores electrónicos para mejorar el rendimiento y eficiencia del motor, equipando así el sistema de control con múltiples sensores. Los motores, componentes electrónicos, entre otros, son vulnerables y expuestos a fallas; debido a estas vulnerabilidades, se realizan diseños más robustos que sean capaces de soportar dichas fallas y mal funcionamiento de uno o varios componentes (Bae 2021). En los últimos años, la búsqueda de fallas en los motores turbofán se ha estudiado y utilizado métodos para dar solución a dichas fallas, obteniendo así dos métodos de estudio que se dividen en: métodos basados en modelos y métodos basados en datos. El primer método brinda la mayoría de soluciones a los problemas de monitoreo en tiempo real, sin embargo, este método requiere modelos matemáticos de alta fidelidad de los motores turboventiladores, que rara vez están disponibles en el mercado; muchos métodos basados en datos utilizan modelos estadísticos y de extracción de características y aprendizaje automático (Sun, et al., 2020). 1.5. Inteligencia artificial (IA) Rouhiainen (2018), establece que IA es la facultad de las máquinas por emplear algoritmos, 8 estudiar los datos y poner en práctica lo que han aprendido para tomar decisiones de manera autónoma; a diferencia de los humanos los dispositivos basados en IA no necesitan un descanso y pueden analizar grandes cantidades de información a la vez. Otra ventaja de la IA es que permitirá que las máquinas y los robots realicen tareas que los humanos encuentran difíciles o peligrosas, permitiendo al ser humano hacer cosas que antes creían imposibles. 1.6. Machine Learning (ML) Según Zhang (2020), el aprendizaje automático es un subconjunto de inteligencia artificial que construye modelos matemáticos a partir de datos de muestra para hacer predicciones o tomar decisiones sin necesidad de formular un programa explícito para realizar una tarea, en el aprendizaje automático, las redes neuronales, las máquinas de vectores auxiliares y las computadoras evolutivas, generalmente se obtiene un conjunto de entrenamiento y un conjunto de prueba, para construir un regresor o clasificador aprendiendo de un conjunto de entrenamiento y luego evaluando el rendimiento del regresor o clasificador en el conjunto de prueba. Figura 7-1: Técnicas de Machine Learning. Fuente: (Cruz 2021, p. 25). 1.2.6. Tipos de aprendizaje 1.2.6.1. Aprendizaje supervisado Este tipo de aprendizaje enseña al algoritmo cómo realizar su trabajo con un conjunto de datos 9 clasificados bajo una cierta apreciación o idea para encontrar patrones que puedan aplicarse en un análisis y producir una salida que ya se conoce (Manrique, 2020). 1.2.6.2. Aprendizaje no supervisado Al contrario del algoritmo supervisado, los algoritmos pertenecientes a este bloque se encargan de encontrar grupos de casos en el conjunto de entrenamiento en función del valor de la variable independiente, lo que significa que los casos en un mismo grupo son similares y los casos en diferentes grupos sean lo más diferente posible (Padilla 2020). 1.2.6.3. Aprendizaje por refuerzo En este tipo de aprendizaje el algoritmo estudia el mundo que le rodea y analiza el ingreso de información que adquiere del exterior; como resultado, el algoritmo memoriza por medio de prueba-error (Cruz 2021). 1.7. Pasos para construir un modelo de Machine Learning Según Manrique (2020, p. 589), para construir un modelo de ML, se necesita de seis importantes pasos como es la colección de datos, es el proceso de recopilación y medición de información de la base de datos; la descripción de datos es el primer paso para tener una visión amplia de los datos para identificar áreas o patrones que se deben profundizar. El preprocesamiento de datos inicia con la importación de las librerías, lectura del conjunto de datos, análisis exploratorio y limpieza de datos. Antes de dividir los datos para entrenar y probar el modelo se realiza un paso muy importante en todo análisis de datos que es la extracción de características, consiste en darle la vuelta a los datos para poder visualizarlos desde otra perspectiva. Entrenar el algoritmo consiste en dividir el conjunto de datos para entrenamiento y prueba del modelo de aprendizaje automático, el porcentaje más utilizado en la división de datos es de 75% del total de datos para entrenamiento y el 25% restante para prueba, con los resultados obtenidos se procede a evaluar el modelo utilizando métricas de evaluación, de esta forma se verifica si el modelo se ajusta o no al conjunto de datos. La metodología utilizada en el desarrollo de este proyecto utiliza dicho procedimiento y se detalla de mejor manera en el capítulo II. 10 Gráfico 1-1: Proceso de construcción de un modelo de Machine Learning. Fuente: (Manrique, 2020, p.589) Realizado por: Lemache, K., 2022. 1.8. Modelos de clasificación 1.2.7. Modelos lineales Intentan encontrar una línea de "ajuste" a la nube de puntos disponible, en este punto se destacan de los modelos conocidos y utilizados, como la regresión lineal (también conocida como regresión de mínimos cuadrados), regresión logística (adaptación lineal a problemas de análisis; ambos modelos están "sobre ajustados" lo que significa que hacen "demasiados" ajustes a los datos existentes, lo que pone en riesgo los nuevos datos (Sandoval 2018). 1.2.8. Modelos de árbol Zhou et al., (2021), menciona que un árbolde decisiones es una herramienta de aprendizaje automático no paramétrico que se utiliza para crear modelos predictivos a partir de sus datos. Se obtienen dividiendo recursivamente el espacio de características en particiones axiales y ajustando una función predictiva simple, a menudo constante, en cada partición, un ejemplo de este modelo es Random Forest o bosque aleatorio por su traducción en español. 1.2.9. Redes neuronales Colección de datos Preprocesamie nto de datos Exploración de datos Se entrena el algoritmo Evaluación de los algoritmos Uso del modelo 11 En un texto detallado por, Avila en conjunto con varios autoes (2020), mencionan que las redes neuronales son similares en función a las neuronas biológicas en sus funciones más comunes, llamados "procesador de elementos lógicos" y elemento de proceso (PE). Cada PE (neurona) tiene elementos de entrada (dendritas) que recogen los pulsos de entrada integrados en el cuerpo de los elementos de procesamiento y producen respuestas o resultados. Las salidas de PE (axones) se pueden vincular a las entradas de otras neuronas artificiales a través de la sinapsis. Figura 8-1: Arquitectura de una red neuronal convolucional profunda. Fuente: (Pinto 2021, p. 21) 1.2.10. Random Forest Introducidos por Leo Breiman y Adele Cutler en 2001, los bosques aleatorios son una colección de árboles de clasificación y regresión, utilizan divisiones binarias en variables predictoras para determinar las predicciones de resultados, se construyen utilizando conjuntos de datos de entrenamiento seleccionados al azar y subconjuntos aleatorios de variables predictoras para modelar los resultados (Linn et al., 2019). Figura 9-1: Random Forest Classifier 12 Fuente: (Linn et al., 2019). Para Espinoza (2020), los resultados obtenidos se combinan a fin de obtener un modelo único y robusto, cada árbol generado contiene un grupo de observaciones aleatorias (elegidas mediante bootstrap, que es una técnica estadística para obtener muestras de una población donde una observación se puede considerar en más de una muestra). Las observaciones no estimadas en los árboles (también conocidas como “Out of the bag”) se utilizan para validar el modelo. Figura 10-1: Algoritmo Random Forest Fuente: (Espinoza, 2020, p.3) 1.2.10.1. Explicación matemática En la investigación realizada por Biau y Scornet (2016),menciona que, para simplificar, solo se considera el problema de clasificación binaria. En este planteamiento la respuesta aleatoria Y toma valores en {0, 1} y, dado X, uno tiene que predecir el valor de Y. Un clasificador, mn es una función medible de Borel de X y Dn que predice la etiqueta Y a partir de X y Dn. En este planteamiento, se dice que el clasificador mn es consistente si la probabilidad de error es: L(mn)= P[mn(X)≠Y]n→∞𝐿, (1) donde L es el error del clasificador óptimo de Bayes: m(x)= { 1 si P[Y=1 | X=x >P[Y=0 | X=x 0 de lo contrario } (2) El clasificador se obtiene mediante un voto entre los árboles de clasificación (Biau, et al., 2016). , 13 mM,n(x; θ1, ..., θM, Dn)= { 1 si 1 M ∑ mn(x; θj, Dn) >1/2 M j=1 0 de lo contrario } (3) sí una hoja representa la región A, entonces un clasificador de árbol aleatorio toma la forma simple mn(x; θj, Dn)= { 1 si ∑ 1xi∈A, Yi> i∈Dn(θj) ∑ 1xi∈A, Yi=0,x ϵ A i∈Dn(θj) 0 de lo contrario } (4) donde Dn (θj), en cada hoja se toma un voto mayoritario sobre todos (Xi, Yi) para los que Xi está en la misma región. Los empates se rompen, por convención, a favor de la clase 0. El algoritmo 1 se puede adaptar fácilmente para realizar una clasificación en dos clases sin modificar el criterio CART-split. Para ver esto, Y ∈ {0, 1} y para cualquier celda A genérica, sea p 0, n (A) (resp., p 1, n (A)) la probabilidad empírica, dado un punto de datos en una celda A, de que tenga la etiqueta 0 (resp., etiqueta 1). Al notar que Y̅A= p1, n(A) = 1- p0, n(A), el criterio de clasificación CART-split dice, para cualquier (j, z) ∈ CA, Lclase, n(j, z)= p0, n(A) p1, n(A) - Nn(AL) Nn(A) × p 0, n (AL) p1, n(AL) - Nn(AR) Nn(A) × p 0, n (AR) p1, n(AR) (5) Este criterio se basa en la llamada medida de impureza de Gini 2p 0, n (A)p 1, n (A), para clasificar un punto de datos que cae en la celda A, se usa la regla que asigna un punto, uniformemente seleccionado de {Xi ∈ A: (Xi, Yi) ∈ Dn}, para etiquetar ℓ con probabilidad pl, n(A), para j ∈ {0, 1}. La probabilidad estimada de que el artículo tenga realmente una etiqueta ℓ es p l, n (A). Por lo tanto, el error estimado bajo esta regla es el índice de Gini 2p 0, n (A) p 1, n (A), y es recomendado establecer nodesize = 1 y mtry =√p, para problemas de clasificación (Biau y Scornet 2016). 1.2.10.2. Hiperparámetros Probst (2019), en su investigación deduce que los parámetros de clasificación deben ser optimizados antes de ejecutar el entrenamiento del algoritmo, además existen hiperparámetros que deben configurarse previamente; como el total de variables a examinar en cada fracción de un Random Forest, la cifra total de estímulos en el Gradient Boosting, el kernel en SVM. 14 1.2.11. Estrategias de ajuste de hiperparámetros En la disertación realizada por Probst (2019), una de las estrategias más idóneas para la selección de hiperparámetros es la validación cruzada, consiste en comparar distintos hiperparámetros en un tiempo muy reducido. Otra estrategia más sencilla es la búsqueda de cuadrícula, define una cantidad finita de valores y posteriormente evalúa todas las combinaciones posibles de hiperparámetros. Por último, se encuentra la búsqueda aleatoria, consiste en la extracción aleatoria de hiperparámetros utilizando la distribución uniforme. Tabla 1-1: Principales hiperparámetros en Random Forest Hiperparámetros Descripción n_estimators Número de árboles de decisión Criterion Determina si un nodo continúa dividiéndose min_samples_split Número mínimo de muestras necesarias para dividir un nodo max_depth Profundidad máxima del árbol, por defecto, hasta que las muestras en todas las hojas sean muestras puras o el número de muestras sea menor que min_samples_split max_features Número máximo de características involucradas cuando se divide un nodo. min_samples_leaf Número mínimo de muestras de nodos por hoja. Bootstrap Método para extraer la muestra de datos (con o sin reemplazo). n_jobs Números paralelos, más trabajos pueden acelerar la construcción del árbol random_state Objeto aleatorio Verbose Si se muestra el registro de construcción del submodelo, 0 significa que no se muestra, 1 significa salida ocasional y más de 1 significa que cada submodelo genera salidas. Fuente: (Li, et al, 2018) Realizado por: Lemache, K., 2022. 1.2.12. Support Vector Machine Introducido por primera vez a fines de la década de 1970 por Vapnik, es uno de los algoritmos de aprendizaje basados en kernel, que tiene como objetivo principal resolver un problema de optimización cuadrática convexa para obtener una solución óptima global en teoría y, por lo tanto, superar el dilema extremo local de otras técnicas de aprendizaje automático (Sheykhmousa 15 et al. 2020). Figura 11-1: Hiperplanos de separación Fuente: (Cervantes, 2020) Sheykhmousa y varios autores (2020), especifican que el algoritmo SVM en su forma básica, es un clasificador binario lineal, el cuál determina un hiperplano óptimo para dividir el conjunto de datos en un número discreto de clases preestablecidas aplicando los datos de entrenamiento que se encuentran cerca del espacio de características del límite de decisiónóptimo, actuando como vectores de soporte; estas muestras son los datos más difíciles de clasificar y generan un impacto directo en la ubicación óptima del límite de decisión. Este proceso iterativo de construir un clasificador con un límite de decisión óptimo se describe como el proceso de aprendizaje. Tabla 2-1: Kernels más utilizados por el algoritmo SVM. Kernel Expresión matemática Parámetros Polinomial K(Xi, Xj)= (<Xi, Xj>+1) r r ∈ ℤ+ Función básica radial gaussiana (RBF) K(Xi, Xj)= exp ‖ Xi, Xj‖ r 2σ2 σ Linear K(Xi, Xj)= <Xi, Xj>+1= Xi T Xj+1 Ninguno Tangente hiperbólica K(Xi, Xj)= tanh(<Xi, Xj>β+b) β, b Fuente: (Cervantes, 2020) Realizado por: Lemache, K., 2022. 1.2.12.1. Caso linealmente separable En la investigación realizada por Cervantes en conjunto con distintos autores (2020), donde define que para entrenar el algoritmo se requiere varios ejemplos y cada uno consta de un vector de entrada xi y la etiqueta asociada yi, expresado de la siguiente manera: 16 (x1,y2), (x2,y2), …, (xn,yn) (6) es decir, X= {xi,yi}i=1 n donde xi ∈ R d y y i ∈ (+1, -1). Por la visualización, se considera el caso de una entrada bidimensional, x ∈ R2. El nivel de decisión, es decir, el hiperplano que separa el espacio de entrada está definido por la ecuación wTxi+b=0. Se optimiza el margen geométrico estableciendo el margen funcional kappai= 1 (también llamado hiperplano canónico), por lo tanto, el clasificador lineal y i = 1, (w*x+)+b= 1 (w*x-)-b= 1 (7) Estos se pueden combinar en un conjunto de desigualdades: y i =(〈w*xi〉+b)≥1 ∀ i (8) El margen geométrico de x+ y x- es: γ i = 1 2 (〈 w ‖w‖ *x+〉 - 〈 w ‖w‖ *x-〉) = 1 2‖w‖ (〈w*x+〉-〈w*x-〉) = 1 ‖w‖ (9) Figura 12-1:Hiperplanos de separación. Fuente: (Cervantes, 2020) 1.2.12.2. Clasificación no lineal Cuando las muestras no se pueden separar de forma lineal la máquina de soporte de vectores, extiende su habilidad de distribución a través de kernel de mapeo de gran dimensión, facultando la clasificación lineal. El kernel 𝑘(𝑥, 𝑦) es el producto interno entre las muestras donde 17 𝑘(𝑥, 𝑦) = 〈φ(x), φ(y)〉 (Lei, 2017, p.123). Por medio de una función kernel la optimización en forma dual se expresa mediante la siguiente formula: Max L(α)= ∑ αi- 1 2 M i=1 ∑ αiαj M i,j=0 y i y j k(xjxj ) (10) s.t. { 0 ≤ αi ≤ C, i=1,2,…,M ∑ αi M i=1 y i =0 } (11) La función de decisión se denota como: f(x)=sing( ∑ αi M i,j=1 y i k(x𝑖xj)+b) (12) Figura 13-1: Hiperplanos de separación. Fuente: (Cervantes, 2020) 1.2.13. XGBoost Qui en conjunto con varios autores (2021), mencionan que el aumento del gradiente extremo (XGBoost) es un algoritmo que desempeñar un papel importante en la mejora del gradiente. Se basa en la teoría de la clasificación y el árbol de regresión, convirtiéndose en un método muy efectivo para resolver problemas de clasificación y regresión, puede simbolizar una biblioteca de computación suave que combina el nuevo algoritmo con métodos de árboles de decisión potenciados por gradientes (GBDT). Después de la optimización, la función objetivo de XGBoost consta de dos partes diferentes, que representan la desviación del modelo y el término regular para evitar el ajuste excesivo. 18 Figura 14-1: Algoritmo XGBoost Fuente: (Qui, 2021) 1.2.13.1. Expresión matemática Si se tiene un conjunto de datos que tiene m características y un número de n ejemplos, se tiene Ds= {(xi,yi): i=1 … n, xi∈ R m, y i ∈ R}. Donde ŷ i es el resultado de un modelo de árbol expresada en la siguiente ecuación (Ahmed et al. 2021): Ȧi= ∅(xi)= ∑ fk( K k=1 xi), fk ∈ F (13) K representa el número de árboles y fk representa el número de k-ésimo árbol para resolver la ecuación 13, minimizando la perdida y el objetivo de regularización. L(∅)= ∑ l( i y i , Ȧi)+ ∑ Ω(fk) k (14) El valor l es la función de pérdida, mientras que Ω indica que tan complejo es el modelo: Ω(fk)= γT+ 1 2 λ‖w‖2 (15) T, representa el número de hojas del árbol y w es el peso de cada hoja. L(t)= ∑ l( i=1 y i , Ȧi (t-1) +ft(xi))+ Ω(ft) (16) Lsplit= 1 2 [ (∑ g ii∈lL ) 2 (∑ hii∈lL )+λ + (∑ g ii∈lL ) 2 (∑ hii∈lL )+λ - (∑ g ii∈lL ) 2 (∑ hii∈lL )+λ ] -γ (17) g i = δ A(t-1) (y i , Ȧi (t-1) ) hi= δA(t-1) 2 (y i , Ȧi (t-1) ) 19 1.2.14. Gradient Boosting En la investigación realizada por Duan et al. (2021), estos autores exponen que, al ajustar un árbol de decisión al gradiente el algoritmo divide los datos de tal forma que se aliñe con el eje y cada fracción está asociada con un nodo de hoja del árbol y se hace lo más homogéneo posible en su variable de respuesta; el valor de predicción del nodo de hoja se configura para que sea el componente aditivo de las predicciones que minimiza la pérdida al máximo, esto es equivalente a hacer una "búsqueda de línea". Figura 15-1: Algoritmo XGBoost Fuente: (Duan et al. 2021). 1.2.14.1. Expresión matemática Dado un conjunto de datos de entrenamiento D= {xi, yi}1 N , se genera una aproximación F̂(x) de la función F(x) se obtiene: Fm(x)= Fm-1(x)+ρmhm(x) (18) ρ m es el peso de la mth función hm(x), creando una aproximación iterativa a partir de una aproximación constante de F(x) se define la siguiente ecuación: Fo(x)= arg min α ∑ L(y i , α) N i= 1 (19) (ρ m hm(x))= arg min ρ, h ∑ L(y i , Fm-1(xi) + ρh(xi)) N i= 1 (20) Sin embargo, este parámetro en vez de resolver la optimización del algoritmo, el hm puede provocar una optimización en descenso del gradiente, es por eso que cada modelo se entrena 20 con un nuevo conjunto de datos D= {xi, rmi}1 N, donde rmi se expresa (Bentéjac, et al,2020). rmi= [ δL(y i , F(xi) δF(x) ] F(x)= Fm-1(xi) (21) ρ m se calcula resolviendo un problema de optimización de búsqueda de línea. 1.9. Redes Neuronales LSTM Las redes LSTM presentan una diversidad de aplicaciones, reducen las dificultades de memoria a largo plazo, su función primordial se basa en una celda de red recurrente básica, su estructura cuenta con una entrada (Ct-1) y una salida (Ct), que se asemeja a una banda transportadora a la que se pueden añadir o retirar datos de la memoria de la red. Para ello utiliza tres compuertas que permiten eliminar y añadir elementos de la memoria y a su vez permite crear un estado oculto (Herrera, 2020, p. 9). Figura 16-1: Estructura de una red LSTM Fuente: (Herrera 2020, p. 9) Cada compuerta consta de tres elementos: una red neuronal, una función sigmoidal y un elemento multiplicador. La variable (Xt) representa a la información de entrada, la variable (ht- 1) indica la salida anterior y finalmente la variable (ht) señala la nueva salida (Herrera, 2020, p. 9). 1.10. Python Es un lenguaje de programación interpretado como multiparadigma que tiene una gran comunidad de desarrolladores y una variedad muy amplia y rica de librerías de apoyo, demás, utiliza un lenguaje muy estable y ampliamente empleado en ámbitos de desarrollo para ciencia de datos y computación, lo que propicia que se encuentren con más probabilidad las herramientas que puedan servirnos, ofrece un modo interactivo ideal para depurar código que 21 está realizando gran cantidad de cálculos con volúmenes importantes de datos (Layme et al., 2022). Figura 17-1: Logo de la aplicación de Python. Fuente: (Layme et al., 2022) 1.2.15. Librerías de Python 1.2.15.1. Pandas Es una herramienta de manipulación de datos de alto nivel desarrollada por Wes McKinney, está construido con el paquete Numpy y su estructura de datos clave es llamada el DataFrame, permite almacenar y manipular datos tabulados en filasde observaciones y columnas de variables (Layme et al. 2022). 1.2.15.2. Matplotlib Es una biblioteca de trazado 2D de Python que produce figuras de calidad de publicación en una variedad de formatos impresos y entornos interactivos en todas las plataformas, puede usar en scripts de Python, servidores de aplicaciones web y seis juegos de herramientas de interfaz gráfica de usuario. Matplotlib intenta hacer las cosas fáciles y las difíciles posibles. Puede generar gráficos, histogramas, espectros de potencia, gráficos de barras, gráficos de error, gráficos de dispersión, etc., con solo unas pocas líneas de código (Layme et al. 2022). 1.2.15.3. Scikit-learn Scikit-learn anteriormente también conocido como sklearnes una biblioteca de Machine Learning de software libre para el lenguaje de programación Python, cuenta con varios algoritmos de clasificación, regresión y agrupamiento que incluyen SVM, Random Forest, Gradient Boosting y está diseñado para interoperar con las bibliotecas numéricas y científicas de 22 Python (Layme et al. 2022). 1.2.15.4. Numpy Es una librería de Python la cual está diseñada para el cálculo numérico y el análisis de datos, tiene incorporada una clase de arrays u objetos, que permiten representar datos en varias dimensiones y funciones las cuales facilitan su manipulación (Cruz 2021, p. 28). 1.2.16. Jupyter notebooks Jupyter Notebook es una herramienta avanzada basada en navegador que funciona como un cuaderno de laboratorio diseñado para admitir flujos de trabajo, código, datos y análisis que definen el proceso de búsqueda. Estos cuadernos se pueden almacenar en línea, su importancia se basa en su interacción con muchos aspectos de la infraestructura de la biblioteca digital, como la identificación digital, los sistemas de estabilidad, la gestión de modelos, la entrada de datos, la documentación, el software y la publicación. (Radles et al, 2017) Jupyter Notebook tiene una buena acogida en ciencia de datos con más de 2,5 millones de publicaciones publicadas en GitHub a partir de septiembre de 2018. Con la capacidad de crear y mostrar códigos, números y símbolos, es ideal para crear análisis de datos de canalización y promover la comprensión. y gestionarlo de nuevo (Clarke et al. 2021). Figura 18-1: Jupyter notebook Fuente: (Clarke eta al., 2021) 1.11. Matriz de confusión En la investigación realizada por Sun (2021), la matriz de confusión bien conocida de 2 por 2 que comúnmente se usa ampliamente en bioestadística o evaluación crediticia, usando estos, no solo se obtienen las estadísticas de la tasa positiva verdadera (VP) y la tasa negativa verdadera (VN), sino también el valor predictivo positivo (FP) y el valor predictivo negativo (FN). 23 Tabla 3-1: Matriz de confusión. Predicción Positivos Negativos O b se rv a ci ó n Positivos Verdaderos positivos (VP) Falsos negativos (FN) Negativos Falsos positivos (FP) Verdaderos negativos (VN) Fuente: (Clarkeet al, 2021) Realizado por: Lemache, K., 2022. 1.12. Métricas de evaluación El modelo se valora según su grado de coincidencia de acuerdo a la condición predicha respecto a su condición real (Pinto 2021, p. 26, 27). • VP Verdaderos positivos: Ordena de manera correcta la categoría positiva. • VN Verdaderos negativos: Ordena de manera correcta la categoría negativa. • FP Falsos positivos: Ordena como positiva una categoría negativa. • FN Falsos negativos: Ordena como negativa una categoría positiva. 1.2.17. Exactitud Determina si un modelo tiene buen desempeño y si existe simetría entre FP y FN, su expresión matemática es (Polanía 2021, p. 11): Exactitud = VP+VN VP+VN+FP+FN (22) 1.2.18. Sensibilidad Para Polanía (2021, p.11) la sensibilidad muestra el porcentaje de datos clasificados de forma correcta sobre el número total de datos de la clase, si el resultado obtenido es un porcentaje mínimo significa que no se detecta de forma correcta las muestras de cada clase y su expresión matemática es: Sensibilidad = VP VP+FN (23) 24 1.2.19. Precisión En la investigación realizada por Polanía (2021, p.11) la precisión indica el porcentaje de los datos clasificados correctamente sobre el número total de datos de la clase, si el resultado obtenido es un valor mínimo significa que existe un alto valor de falsos positivos: Precisión = VP VP+FP (24) 1.2.20. F1-Score Según el Polanía (2021, p.11) f1-score expresa la media armónica entre la precisión y la sensibilidad, este resultado determina el desempeño global del modelo respecto a los datos de la clase. F1-Score=2* Precisión*Sensibilidad Precisión+Sensibilidad (25) 1.13. Curva característica operativa del receptor (ROC) Inca en conjunto con varios autores (2022, p. 1445), mencionan que estas curvas son el resultado del equilibro que existe entre relación de la sensibilidad expresada en la variable dependiente y la especificidad expresada en la variable independiente por cada valor de la muestra de datos positivos y negativos, además de la precisión global de los datos de entrenamiento. Figura 19-1: Relación entre curvas ROC. Fuente: (Linn et al., 2019) 1.2.21. Área bajo la curva (AUC) Se puede decir que el área bajo la curva ROC expresa que tan bueno es un modelo para clasificar las clases positivas y negativas, donde un área equivalente a 1 corresponde a un 25 clasificador perfecto y un área igual a 0,5 indica que la clasificación asigna de forma aleatoria los datos correspondientes a las diferentes clases (Quiroz et al. 2022, p. 57). Figura 20-1: Gráfica del área bajo la curva Fuente: (Quiroz et al,. 2022, p.57) 1.14. Overfitting y underfitting Según Zhang y de acuerdo con varios autores (2019), el overfitting y underfitting son dos de los contratiempos muy importantes que se encuentran en la fase de entrenamiento de un modelo de aprendizaje de máquina, un ajuste deficiente implica que la fase de entrenamiento es limitada y la precisión es relativamente baja, por el contrario, un sobreajuste indica que el modelo solo funciona bien en la fase de entrenamiento causando un déficit en la fase de prueba provocando una gran pérdida de adaptabilidad y flexibilidad. Gráfico 2-1: Overfitting y underfitting Fuente: (Zhang et al., 2019) 1.15. Validación cruzada Según Rodriguez (2019, p. 13), menciona que una validación cruzada es una de las técnicas más utilizada en un modelo de aprendizaje de máquina por clasificación, donde k es la división de muestras en un conjunto fijo dando como resultado la disminución del error estimado por cada 26 una de las iteraciones, cabe recalcar que se debe tener en cuenta el valor óptimo de la división de muestras puesto que, si se asigna una gran cantidad de divisores a una muestra, dicha muestra puede perder información importante que no se pude volver a recuperar. Figura 21-1: Validación cruzada sobre 100 muestras. Fuente: (Rodriguez, 2019, p.13) 27 CAPÍTULO II 2. MARCO METODOLÓGICO 2.1. Colección de datos La comparación de los modelos de aprendizaje de máquina en la detección de fallas de turborreactores se utilizó un conjunto de datos que fue proporcionado por Prognostics Center of Excellence (PCoE) de la NASA. Se simularon varios conjuntos de datos que incluyen mediciones de series temporales de varias presiones, temperaturas y velocidades de equipos giratorios para el motor a reacción bajo seis condiciones de vuelo diferentes que comprendían un rango de valores para tres condiciones operativas: altitud (0 a 42 K pies), número de Mach (0 a 0,84) y ángulo de resolución del acelerador (TRA) (20 a 100). La figura 1-2, muestra una captura de imagen del repositorio de PCoE de la NASA. Figura 1-2: Repositorio de
Compartir