Vista previa del material en texto
GENERACIÓN DE UN MODELO PREDICTIVO PARA EVENTOS DE PEGA DE TUBERIA EN POZOS DE PETRÓLEO Trabajo de Grado Presentado A: Departamento De Ingeniería Industrial Presentado Por: Diego Andrés Ojeda Vargas Asesor: Adriana Abrego Pre-Asesor: Astrid Bernal Bogotá, Colombia Noviembre de 2021 Universidad De Los Andes Departamento De Ingeniería Industrial Tabla de contenido 1. Introducción ............................................................................................................................. 3 2. Descripción del problema .................................................................................................... 3 3. Metodología ............................................................................................................................. 5 3.1. Planteamiento del problema ........................................................................................ 5 3.2. Procesamiento de datos no estructurados ............................................................. 7 3.3. Limpieza de datos ........................................................................................................ 11 3.3.1. Valores nulos ......................................................................................................... 11 3.3.2. Valores anómalos ................................................................................................. 11 3.3.3. Ajuste de granularidad de las series de tiempo ........................................... 12 3.3.4. Imputación de valores nulos ............................................................................. 13 3.3.5. Suavizado de series de tiempo ......................................................................... 14 3.4. Análisis estadístico de datos .................................................................................... 16 3.4.1. Distribución de series de tiempo ..................................................................... 16 3.4.2. Correlaciones ........................................................................................................ 19 3.5. Prueba y selección de modelos ............................................................................... 22 3.5.1. Modelos supervisados de machine learning. ............................................... 22 3.5.2. Modelo no supervisado de machine learning ............................................... 26 3.5.3. Modelo supervisado de deep learning ........................................................... 27 3.5.4. Comparación de resultados de los modelos a evaluar .............................. 30 4. Análisis económico y operativo de modelos ........................................................ 30 4.1. Comparación económica de modelos ................................................................ 31 4.2. Comparación operativa de modelos ................................................................... 33 4.3. Situación actual contra eventual implementación del modelo .................... 34 5. Conclusiones y trabajos futuros .............................................................................. 36 6. Referencias .................................................................................................................... 38 1. Introducción La perforación de pozos de petróleo y gas es una de las actividades de ingeniería más retadoras desarrolladas por el ser humano en el último siglo, que ha apalancado el gran desarrollo industrial y tecnológico que nos ha permitido llevar la civilización a niveles de crecimiento nunca vistos. Desde que, en 1859 en Titusville, Pensilvania, el coronel Edwin Drake comenzara a perforar el primer pozo de petróleo de la historia moderna hasta nuestros días, donde se perforan cerca de 65,000 pozos al año en 2019 (https://www.oedigital.com/news/465619-65-000-wells-will-be-drilled-in-2019) la industria de la perforación de pozos ha venido revolucionando la forma en la que se perforan los pozos: El cambio de perforación a percusión por perforación rotativa, el uso de herramientas para la perforación direccional y finalmente el uso de sensores para monitorear los parámetros de perforación. Sin embargo, el uso de esta información se ha venido usando Post-Mortem, es decir, después de perforados los pozos la información se utiliza para realizar análisis de rendimiento, tiempos no productivos (NPTs) y costos. El objetivo de este proyecto es encaminarnos hacia una nueva revolución en la forma de perforar pozos, una revolución orientada la toma de decisiones basadas en datos, que nos permita utilizar la gran cantidad de datos acerca de la perforación de nuestros pozos y usarla para evitar minimizar los eventos no deseados, generando reducciones de tiempo y costo. 2. Descripción del problema La perforación de pozos de petróleo es una ciencia que involucra una gran cantidad incertidumbre en las variables que gobiernan su comportamiento: geología de las formaciones a perforar, propiedades mecánicas de las rocas, estructuras encontradas en el subsuelo, tipos de herramientas utilizadas, parámetros de perforación a usar, etc. Esta situación sumada a los grandes costos asociados a estas actividades, hacen que la optimización y reducción de costos sean palabras usadas todos los días en las operaciones de perforación de pozos. Una de las principales fuentes de tiempos no productivos (NPT) son los eventos de tubería pegada (Stuck Pipe Events), los cuales se dan durante el desarrollo de la perforación de un pozo (22 % del NPT total), son de diferentes características y debidos a diversas causas, las cuales, varían entre pozos, campos, regiones y compañías. Se calcula que los eventos de Stuck Pipe cuestan anualmente en el mundo alrededor de 960 MM USD (Oilfield Review Schlumberger. October 1991) y ocurren en el 15% de los pozos perforados. Por tal razón, las compañías se han interesado siempre en reducir la ocurrencia de estos eventos. Un evento de Stuck Pipe se da cuando la tubería de perforación no se puede mover libremente y las fuerzas necesarias para liberarla son mayores a las disponibles. Con el fin de lleva a cabo la perforación de un pozo, se monitorean parámetros utilizados durante la perforación de un pozo (segundo a segundo), tales como: el torque que siente la tubería mientras se perfora (TQ), la presión de bombeo del fluido de perforación (SPP), el peso de la sarta de perforación (Hook Load – HL), las revoluciones por minuto a las que gira la tubería de perforación (RPM), etc. Figura 1: Ejemplos de Eventos de Stuck Pipe (izq-der): Empaquetamiento por limpieza, Empaquetamiento por derrumbes, Pega por geometría Figura 2. Ejemplos de Eventos de Stuck Pipe (izq-der): Geometria por ojo de llave, Pega diferencial. En ese orden de ideas, para las compañías operadoras es importante reducir las ocurrencias de eventos de Stuck Pipe, utilizando las lecciones aprendidas de eventos ocurridos anteriormente, que se tienen claramente documentados con datos de los parámetros monitoreados. Esta necesidad viene a intentar ser resuelta por este proyecto, que busca hacer un análisis de los datos de los eventos de Stuck pipe, evaluar los parámetros que estadísticamente inciden en las probabilidades de ocurrencia de los eventos y generar un modelo que pueda predecir los eventos de Stuck pipe; con el fin de minimizar los tiempos y costos perdidos, generando valor para la compañía permitiendo más presupuesto para la ejecución de los proyectos. Cabe resaltar que, la mayoría de la información asociada a la perforación de pozos de los últimos 5 años está siendo almacenada en datos estructurados y en bases de datos de las compañíasde servicios (quienes prestan los servicios de toma de datos a través de sensores) y de las compañías operadoras (quienes administran el campo y el crudo producido). Sin embargo, cuando una compañía operadora obtiene un bloque en el cual operar, esta licencia de operación viene acompañada con un conjunto de información acumulada a lo largo de los años, que comprende datos no estructurados (imágenes, archivos en diferentes formatos) que es necesaria para comprender el estado del campo y poder realizar la planeación de nuevos pozos. 3. Metodología 3.1. Planteamiento del problema Para este proyecto, la compañía operadora Petróleos De Los Andres recibió un bloque de exploración, con el fin de perforar una serie de pozos en búsqueda de crudo. Este bloque cuenta con información de pozos previamente perforados, pero estos se ejecutaron hace más de 8 años, esto implica que la información disponible no está en las mejores condiciones de procesamiento. En esta situación en particular, se cuenta con información de sensores de varios pozos almacenada en archivos de formato .PDF, lo cual conlleva un esfuerzo adicional de procesamiento de esta información y será el primer reto por superar en este proyecto. Para la perforación de sus pozos, esta compañía ha identificado que la principal fuente de eventos no deseados son los llamados Eventos De Pega De Tubería, así que para el desarrollo de este proyecto se busca desarrollar un modelo predictivo de eventos de pega de tubería que pueda detectar estos eventos con suficiente antelación, para que el personal operativo pueda tomar decisiones durante las operaciones y así evitar la ocurrencia de estos eventos no deseados. La implementación de este modelo en producción será contemplada en proyectos posteriores. Adicionalmente, se espera concluir cuales son las variables que más tienen impacto en la aparición de los eventos de pega de tubería, con el fin de, ejercer mas control sobre los valores arrojados por los modelos de simulación de perforación de pozos desde la planeación de los pozos. Con el fin de afrontar estos retos, se realizará una limpieza de datos extraídos: remoción de valores anómalos, imputación de datos, etc. Posteriormente se realizará un análisis estadístico de datos, el cual nos llevará a visualizar la distribución y comportamiento de las distintas variables y su correlación entre ellas mismas y la variable a predecir, en este caso, la ocurrencia o no de eventos de pega de tubería. Luego, se realizará una etapa correspondiente a la prueba y selección de modelos, que permitan predecir, con razonable antelación, la ocurrencia de eventos de pega de tubería. Se contempla la utilización de modelos supervisados de Machine Learning que permitan capturar relaciones no lineales entre las diferentes variables (Modelos Tipo Boosting), modelos no supervisados usados para detección de anomalías (isolation forest) y modelos supervisados de Deep Learning que tienen en cuenta la conectividad temporal del fenómeno (redes neuronales tipo LSTM). Es importante resaltar que los modelos se evaluarán, desde el enfoque de ciencia de datos, con la métrica conocida como Recall, ya que se busca minimizar la cantidad de falsos negativos (ocurrencia del evento de pega de tubería y que el modelo no lo detecte), ya que su costo es 24 veces mayor que un falso positivo y esta métrica se enfoca en la reducción de los falsos negativos. Una vez evaluados los modelos con la métrica definida, se procede a la siguiente etapa, que corresponde a un análisis económico de los mismos, lo cual permitirá evaluar los impactos económicos de su implementación y compararlos con la situación actual en las operaciones de perforación. Paralelamente también se medirá el tiempo promedio de antelación con el que cada modelo anticiparía la aparición de los eventos de pega de tubería, medida sumamente importante desde la óptica operativa, ya que nos hablará del tiempo que tendremos para tomar decisiones en tiempo real con el fin de evitar estos eventos no deseados. La metodología presentada para el desarrollo de este proyecto se ilustra en la figura 3. 3.2. Procesamiento de datos no estructurados Los datos disponibles para el desarrollo de este proyecto presentan un desafío inicial, los datos disponibles son series de tiempo representadas en archivos de formato .PDF que contienen la información de sensores necesaria para el análisis de los parámetros que modelan el fenómeno de pega de tubería. Desafortunadamente, de estos registros no existe registro numérico, por lo tanto, se hace necesario procesar estos datos no estructurados. Para este proyecto, se logró obtener información de 3 pozos (cada uno con más de 200 días de operación), en los cuales hay 16 registros con eventos de pega de tubería. Estos pozos pertenecen a un campo especifico y los eventos de pega de tubería se dan a diferentes profundidades y formaciones, las cuales no se tienen dentro del conjunto de datos. Un ejemplo de estos archivos se puede visualizar en la figura 4. Con el fin de poder procesar estos datos no estructurados, se utilizó un aplicativo con licencia de software libre llamado WebPlotDigitizer (Ankit Rohatgi, April, 2019- https://automeris.io/WebPlotDigitizer), la cual permite extraer los valores numéricos de las series de tiempo de las variables de interés de los archivos en formato PDF. Se carga el archivo en formato .PDF, se definen los ejes, las escalas (figura 5); se ubica en la interfaz el color de la serie de tiempo que se quiere extraer y la zona donde esta serie de tiempo se dibuja (figura 6). Una vez realizado el mapeo de la Figura 3. Etapas de desarrollo para la metodología del proyecto. serie, se pueden extraer los datos de la serie y exportarlos en un archivo de fácil lectura tales como el formato .csv (ver figura 7). Figura 4: Drilling Data Plot - Grafica de monitoreo de los parámetros de perforación de un pozo. Figura 5: Herramienta para procesamiento de archivos PDF: definición de ejes y escala. Figura 6: Herramienta para procesamiento de archivos PDF: selección del color y ubicación de la serie de tiempo Esta metodología permitió extraer la información asociada a los siguientes parámetros de perforación: - ROP (fth/hr): Rate Of Penetration, tasa de penetración o tasa de perforación, la cantidad de pies que se avanzan en una unidad de tiempo mientras se perforar, en este caso pies por cada hora. - Block Height (ft): posición del bloque de la torre que sube o baja desde la altura de la mesa rotaria (0 ft) hasta la parte superior de la torre (110 ft), en este caso esta altura se mide en pies. - Hook Load (Klb): Peso en el gancho sobre el cual está colgado el bloque y la tubería de perforación, viene dado en miles de libras de peso. - WOB (Klb): Weight On Bit, peso sobre la broca que se aplica durante las operaciones, se registra en superficie en miles de libras de peso. - Torque (Klb-ft): Torque, que representa la medida de la fricción rotacional que tiene el hueco con la sarta, se mide en miles de libras por pie. - RPM (rpm): Velocidad de rotación de la tubería dadas en revoluciones por minuto. - Flow In (GPM): Tasa de flujo con la que se bombea fluido al pozo a través de la tubería, que se mide en galones por minuto. - Pump Pressure (Psi): Presión de bombeo medida en superficie al bombear fluido hacia el pozo a través de la tubería, en este caso se mide en libras por pulgada cuadrada. Figura 7: Herramienta para procesamiento de archivos PDF: Extracción de datos de la serie y exporte de datos. Estos parámetros se tienen durante toda la operación, es decir, antes,durante y después de los eventos de pega. Con el fin de captar el comportamiento normal del pozo y los instantes previos antes de la aparición del evento no deseado, se tomarán los datos de los sensores diez horas antes la pega de tubería y una hora después de la ocurrencia del evento, con el fin de que los modelos a evaluar puedan capturar y representar los fenómenos físicos involucrados en la perforación de pozos y los eventos de pega de tubería. 3.3. Limpieza de datos El uso de la herramienta de procesamiento WebPlotDigitizer no es ciento por ciento confiable en la lectura de parámetros a partir de la imagen en un archivo de formato .PDF, así que se hace necesaria una revisión de los valores nulos y valores anómalos. 3.3.1. Valores nulos Con respecto a los valores vacíos, se puede observar que no presentan mayor porcentaje de aparición en en dataset excepto en las variables ROP y Pump Pressure (figura 8), las cuales, luego de realizar una revisión en las gráficas, se puede evidenciar que corresponden a valores cero y la herramienta no los identifica debido a la superposición de la línea de eje que es de color negro lo que con lleva a una pérdida de información representados en valores nulos (figura 10). Para esta situación, se imputa con el valor de cero los valores nulos de las variables RPM y ROP. Para las demás variables, los valores nulos fueron removidos del conjunto de datos. 3.3.2. Valores anómalos Con respecto a valores anómalos, los que podrían así son los valores negativos que tomen las variables. Estos se ven representados de forma porcentual en la figura 9. El tratamiento de estos valores anómalos se abordó imputándolos con cero, entendiendo que podrían está fuera de escala. Figura 8: Tabla con porcentajes de valores nulos en el conjunto de datos. Figura 9: Tabla con porcentajes de valores negativos en el conjunto de datos. Así mismo, haciendo uso del conocimiento del negocio, se detectó que había valores de torque cuando las RPM’s eran iguales a cero, lo cual no tiene sentido físico, por lo tanto, aquellos valores de torque (previos al evento de pega) que fueran diferentes de cero mientras los valores de Torque fueran cero, se imputaron con un valor de cero. 3.3.3. Ajuste de granularidad de las series de tiempo Otro reto abordado de los datos obtenidos del aplicativo de procesamiento es que, los puntos no tienen la misma granularidad, haciendo imposible la unión de las series de tiempo (figura 11). Con el fin de solucionar este impase, se realizó un Resamplig a tres segundos para cada serie de tiempo, con el fin de coincidir en el mismo índice y así poder unificar las mismas en un solo set de datos. Figura 10: Intervalos de pérdida de información por solapamiento de eje sobre la serie de tiempo de interés. Figura 11: Series de tiempo con diferente granularidad Este proceso de Resampling con sets de datos de diferente granularidad genera intervalos en los cuales se aplica un Upsampling o un Downsampling, para el primer caso, se generan valores nulos donde no hay valores espaciados a tres segundos, para el segundo se realiza usando el promedio de los valores que se encuentran dentro del rango de los 3 segundos (figura 12). 3.3.4. Imputación de valores nulos Con el fin de imputar estos valores vacíos, se usó un algoritmo de imputación Knn imputer, usando los veinte vecinos más cercanos, con el fin de capturar el comportamiento general del intervalo y que afectara lo menos posible la tendencia general (figura 13). Figura 12: Set de datos con valores vacíos luego del Upsampling a 3 segundos. Figura 13: Set de datos después del proceso de imputación. 3.3.5. Suavizado de series de tiempo Finalmente, al observar los datos obtenidos, podemos ver que la información tiene demasiado ruido (figura 14), lo que puede generar dificultades a los modelos a construir. Para esta situación, se decidió realizar un promedio móvil usando los veinte puntos previos, lo cual mantendría la tendencia de la serie de tiempo, pero eliminando valores de ruido (figura 15) y dejando el set de datos listo para la siguiente etapa del desarrollo del proyecto. Figura 14: Datos procesados con ruido. La etapa de limpieza y preparación nos deja un conjunto de datos compuesto por 15 eventos de pega de tubería, con una media de 10 horas previas a la aparición del evento no deseado, 30 minutos posteriores al evento de pega de tubería con una granularidad de un punto cada 3 segundos. Con estas características se tienen 9 variables predictoras (Block Height, Hook Load, WOB, Torque, Flow In, Pump Pressure, RPM, ROP y Actividad) con el objetivo de precedir una variable categórica binaria (Pega), lo que nos lleva a un set de datos de 10 columnas con 179,468 puntos. Figura 15: Datos procesados sin ruido después de realizar aplicar una media móvil. 3.4. Análisis estadístico de datos Con el fin de comenzar a buscar relaciones entre las variables y su impacto en la aparición de eventos de pega de tubería, se procede a realizar un análisis estadístico de datos. 3.4.1. Distribución de series de tiempo Comenzamos etiquetando manualmente los eventos de pega con ayuda de información contenida en los reportes diarios de perforación, que informan el momento justo del evento de pega. Se crea también otra variable importante que refleja la actividad que se venía realizando: bajando tubería (RIH – Run In Hole) o sacando tubería (POOH – Pull Out Of Hole), la cual nos puede ayudar a encontrar diferencia en el comportamiento de las variables durante una actividad u otra. El primer análisis importante hace referencia a si existe una diferencia importante en la distribución de las variables un tiempo antes del evento de pega dependiendo de la actividad realizada (figura 16), donde se puede evidenciar: - La media de la altura del bloque previa a los eventos de pega durante RIH es cercana a la mitad del recorrido de la parada de tubería (60 ft), en cambió las pegas sacando tubería (POOH) se dan mas cerca de la conexión (20 ft) - La media de la presión de bombeo previa a los eventos de pega metiendo tubería es mucho mayor (1350 psi) que sacando tubería (cercano a 0 psi) debido a que la mayoría de los viajes sacando tubería se hacen en elevadores (sin bomba) y los viajes metiendo tubería se realizan lavando (con bomba encendida). Sin embargo, se considera importante revisar la distribución de cada variable varios intervalos de tiempo antes, con el fin de evidenciar si existe algún cambio en la distribución de esta a medida que se acerca el evento de pega de tubería (figuras 17 y 18). Figura 16: Distribución de variables 5 minutos antes de la pega, dependiendo de la actividad realizada Figura 17: Distribución de variables 1, 5 y 15 minutos antes de la pega, dependiendo de la actividad realizada Con el fin de evitar la influencia de los valores extremos, se analiza la mediana de los parámetros 1, 5 y 15 minutos antes del evento de pega, con el fin de evidenciar los cambios en las variables con el paso del tiempo (figura 19). Figura 18: Distribución de variables 1, 5 y 15 minutos antes de la pega, dependiendo de la actividad realizada RIH POOH Figura 19: Mediana de las variables de interés 1, 5 y 15 minutos antes de la pega, dependiendo de la actividad realizada. De igual forma, es importante conocer la distribución de la variable binaria a predecir (figura 20), donde se apreciaun evidente desbalanceo de clases, el cual, será manejado durante la preparación de los datos previo a la construcción de los modelos a probar para la predicción. 3.4.2. Correlaciones Con el fin de realizar un análisis de correlación entre las variables, se realizó un gráfico tipo Pairs Plot (figura 21), donde se evidencia que no existe una autocorrelación evidente entre las variables, es decir, todas aportan algo de varianza la ocurrencia de los eventos de pega de tubería. También, podemos evidenciar de forma cuantitativa que las variables no tienen evidencias de autocorrelación tanto en actividad sacando tubería (POOH) y metiendo tubería (RIH) en la figura 22. Con respecto a las variables que explicarían de forma lineal la ocurrencia de un evento de pega de tubería, se realizó también mapas de calor con las correlaciones correspondientes (figura 22). Aquí se puede evidenciar que la variable que más impacta de forma lineal en la ocurrencia de los eventos de pega de tubería es Pump Pressure, presente con valores de correlación más negativas en ambas actividades. Figura 20: Distribución de la variable binaria a predecir: ocurrencia del evento de pega de tubería, segmentado dependiendo de la actividad. Figura 21: Pairs Plot de las variables que componen el set de datos, segmentado dependiendo de la actividad. Figura 22: Mapas de calor con matriz de correlación de las variables del conjunto de datos, segmentado dependiendo de la actividad. Figura 23: Mapas de calor con valores de correlación entre la variable a predecir (Ocurrencia de pega de tubería) y las variables predictoras, segmentado dependiendo de la actividad. 3.5. Prueba y selección de modelos Luego de haber realizado el alistamiento de las series de tiempo correspondientes al conjunto de datos y en análisis estadístico de las mismas, el siguiente paso es la construcción de modelos que nos permitan predecir la ocurrencia de eventos de pega de tubería, con un tiempo razonable de antelación, que permita al operador del equipo de perforación o a los tomadores de decisiones en operaciones e ingeniería, tener una herramienta adicional de soporte para decidir los pasos inmediatos a seguir, con el fin de minimizar la ocurrencia de evento no deseados asociados con eventos de pega de tubería. 3.5.1. Modelos supervisados de machine learning. Entendiendo que los fenómenos físicos que pueden explicar la ocurrencia de eventos no planeados se decidió probar diferentes modelos de machine learning supervisados con el fin de evaluar su capacidad predictiva. Este análisis se realizó usando una librería de Python conocida como Pycaret, la cual permite realizar evaluaciones de diferentes modelos, transformaciones y preparación de datos con menos líneas de código. Esta librería usa las funciones clásicas de Sckit-Learn para cada modelo (https://pycaret.org/). Una de las tareas previas a la construcción de los modelos de interés, es el tratamiento del desbalanceo de clases en la variable a predecir. Con el fin de darle tratamiento a esta situación, se decide usar una metodología de Data Argumentation conocida como SMOTE, que consiste en duplicar los ejemplos de la clase minoritaria, lo cual balancea el conjunto de datos, pero sin añadir información adicional (N. V. Chawla, et al., 2011). Luego se procede a realizar pruebas con diferentes modelos con una métrica definida, el Recall, que permite enfocarse en minimizar la cantidad de falsos negativos, ya que, en este campo, el costo de un falso negativo (que aparezca un evento de pega y el modelo no lo detecte) cuesta cerca de 150.000 USD y un falso positivo (que el modelo prediga la ocurrencia de un evento de pega que no sea real) cuesta cerca de 6250 USD, este ranking lo podemos ver en la figura 24. El siguiente paso consiste en realizar una optimización de hiper-parámetros usando validación cruzada (10-Cross Fold Validation) con la metodología de random search con 100 combinaciones de parámetros, esto aplicado a los 4 modelos con mayor Recall, con el fin de seleccionar el modelo adecuado. Esta estrategia nos permite ver que el modelo con mejores métricas es Cat Boost (figura 25). https://pycaret.org/ https://arxiv.org/search/cs?searchtype=author&query=Chawla%2C+N+V Figura 24: Ranking de modelos evaluados para selección. Cat Boost Random Forest ExtraTrees Cassifier Extreme Gradient Boosting Figura 25: Métricas posteriores al ajuste de hiper-parámetros con 10-fold cross validation. También evaluamos el rendimiento de cada modelo a través de la matriz de confusión de cada uno (aplicada al conjunto de prueba, correspondiente al 30% del conjunto de datos. Aquí podemos observar (figura 26) que el modelo seleccionado tiene un menor número de falsos negativos (eventos de pega reales, pero no predichos por el modelo). Una vez seleccionado el modelo, se procede a optimizar el threshold de decisión para la asignación de la clase a predecir (Pega). Esta optimización la realizamos teniendo en cuenta el costo de los errores: - Falso Positivo: El modelo predice un evento de pega que no es real generaría que se paren las operaciones, se reciproque la tubería y se circule durante 30 minutos para mejorar las condiciones del pozo y evitar un evento de tubería. Esto costaría aproximadamente 6,250 USD. - Falso Negativo: Se presenta un evento de pega de tubería que el modelo no detecta, esto provocaría que se diera el evento no deseado que, de media, tardaría un día completo de operaciones perdido intentando soltar la tubería. Esto costaría aproximadamente 150,000 USD. Cat Boost Random Forest ExtraTrees Cassifier Extreme Gradient Boosting Figura 26: Matrices de confusión de modelos a evaluar Esta metodología nos permite minimizar una función de costo de errores, que nos arroja un valor óptimo de threshold de 0.4317 (figura 27). Finalmente, con el modelo seleccionado de tipo Categorical Boosting Classifier que es un modelo constituido por arboles de decisiones, podemos generar una gráfica con el atributo conocido como Feature Importance, que nos permite medir el error en la predicción al permutar los valores de cada variable. Esta metodología nos permite entender qué variables impactan mas y menos en la explicabilidad del modelo (figura 28), lo que nos permite afirmar que las variables Block Height y Pump Pressure tienen un mayor impacto en la probabilidad de ocurrencia de un evento de pega de tubería y la variable ROP tiene un menor impacto en la probabilidad de ocurrencia de un evento de pega de tubería. Figura 27: Función de optimización de threshold para minimizar la función de costo. Figura 28: Importancia de las variables para el modelo seleccionado tipo Cat Boost. 3.5.2. Modelo no supervisado de machine learning Entendiendo que los eventos de pega de tubería son eventos raros, pero con un alto costo, se decide realizar la prueba con un modelo de detección de anomalías no supervisado conocido como Isolation Forest (Fei Tony Liu, et al,. 2009) Este modelo se entrena si etiquetas (no supervisado) pero requiere un parámetro a definir que es el porcentaje de valores anómalos, valor que se usó para este caso fue un 5%, ya que corresponde a la proporción entre los datos etiquetados como puntos sin pega (10 horas)y los puntos correspondientes a eventos de pega (30 min). Para este modelo, no fue posible la detección de eventos positivos de pega en el conjunto de prueba, lo que se ve reflejado en la matriz de confusión y en las métricas (figura 29). Figura 29: Matriz de confusión y métricas correspondientes al modelo no supervisado Isolation Forest. https://www.researchgate.net/profile/Fei-Tony-Liu 3.5.3. Modelo supervisado de deep learning Teniendo en cuenta que el tipo de datos con los que se cuenta series de tiempo, se decidió realizar la construcción de un modelo haciendo uso de algoritmos de tipo aprendizaje profundo especializados en problemas de series de tiempo, en este caso, el tipo de modelo seleccionado fueron redes neuronales tipo LSTM. Para la construcción de este modelo se tuvo en cuenta una predicción punto a punto, tomando en cuenta una ventana de doscientos puntos previos para hacer la predicción del punto siguiente, lo que corresponde a los diez minutos previos, ya que la granularidad de los datos es un punto cada tres segundos (figura 30) Posteriormente se procede a construir la arquitectura de la red, la cual tiene una capa de entrada con 1 neuronas (10 variables), tres capas ocultas con 30, 20 y 10 neuronas tipo LSTM respectivamente y una capa de salida con una neurona, que es la variable que se quiere predecir. Se usó una tasa de dropout en cada capa de 0.2, con el fin de reducir el sobreajuste, también se utilizó un optimizador tipo Adam, la función de pérdida usada fue la entropía binaria cruzada y se buscó optimizar la métrica Recall, para buscar reducir el numero de falsos negativos (figura 31). La arquitectura se muestra en la figura 32 y representada gráficamente en la figura 33. Figura 30: Dimensiones de las matrices de entrada para la red neuronal donde se evidencia el tamaño de la ventana para la realización de la predicción. Figura 31: Definición del modelo de red neuronal Se decide entrenar la red con el 70% de los datos y dejar para prueba el 30% restante. Luego del entrenamiento, para el cual usamos 10 épocas de recorrido de la red encontramos el comportamiento de la función de error y de la métrica de evaluación en la figura 34. Figura 32: Arquitectura de la red neuronal construida. Figura 33: Diagrama de la arquitectura de la red neuronal construida. Al evaluar el rendimiento del modelo a través de la matriz de confusión y las métricas podemos encontrar los resultados mostrados en la figura 35. Podemos evidenciar que el modelo captura eventos de pega de tubería, como el modelo evaluando en primer lugar (Cat Boost) y a diferencia del enfoque con el modelo no supervisado evaluado (Isolation forest). Figura 35: Matriz de confusión y métricas correspondientes al modelo supervisado de redes neuronales tipo LSTM. Figura 34: Comportamiento de la función de error y la métrica a optimizar durante el entrenamiento de la red neuronal. 3.5.4. Comparación de resultados de los modelos a evaluar Luego de entrenar y probar los tres enfoques, presentamos las métricas de comparación de los tres modelos evaluados a continuación (figura 36). Se puede evidenciar que dos de los tres modelos detectan en gran medida los puntos con etiqueta de ocurrencia de pega de tuberia (Cat Boost) y uno no logra detectar estos eventos (Isolation Forest). 4. Análisis económico y operativo de modelos Al realizar la prueba de diferentes modelos y evaluarlos con las métricas clásicas de inteligencia artificial se procedería a seleccionar el modelo con la mejor capacidad predictiva; sin embargo, al intentar implementar estos modelos en las industrias (en este caso Oil & Gas) los tomadores de decisiones tienden a resistirse en la adopción de estas herramientas en su labor, debido a la natura resistencia al cambio y muchas veces a la dificultad de evaluar realmente el impacto de los aciertos y los errores naturales de los modelos a implementar. Por esta razón, para este proyecto se decidió realizar una evaluación económica de los tres modelos probados. Cat Boost Isolation Forest LSTM Figura 36: Comparativa de Matrices de confusión y métricas correspondientes a los tres modelos entrenados. 4.1. Comparación económica de modelos Con el fin de incrementar el nivel de aceptación de estos modelos a partir de la comprensión de sus métricas y sus implicaciones realizaremos comparativas de predicción de los tres modelos, cuantificando el costo de sus errores teniendo en cuenta las reglas de negocio para su evaluación: - El costo de un falso negativo (que aparezca un evento de pega y el modelo no lo detecte) cuesta cerca de 150.000 USD. - El costo de un falso positivo (que el modelo prediga la ocurrencia de un evento de pega que no sea real) cuesta cerca de 6250 USD. - Es importante desde el nivel operativo, que cualquier modelo genere una predicción de la ocurrencia del evento de pega con un tiempo de antelación razonable, para que los operadores del equipo de perforación o el equipo de operaciones tome las medidas necesarias para evitar el evento Al generar las predicciones sobre los pozos del conjunto de datos, podremos cuantificar (en dólares) la cantidad de errores que tiene cada modelo, junto con el costo asociado y el tiempo (en minutos) antes de que ocurra el evento por cada modelo. En la figura 37 podemos ver el análisis para uno de los pozos del conjunto de datos. Figura 37: Evaluación económica de los tres modelos, junto con el tiempo medio de aviso antes de la ocurrencia del evento de pega de tubería. Con esta metodología se consigue evaluar económicamente lo tres modelos con métricas económicas y de tiempo de aviso, las cuales permiten explicar a nivel económico y operativo las implicaciones de la implementación de un modelo de estas características, un resumen de esta evaluación para todos los pozos del conjunto de datos se muestra en la figura 38. Donde el costo promedio por viaje se calcula dividiendo el valor total en 15 (numero de viajes) y el costo por pozo se calcula multiplicando el costo promedio por viaje por 3 viajes (numero de viajes promedio por pozo en este campo). Figura 38: Evaluación económica de los tres modelos par los 15 eventos, junto con su costo promedio por viaje y por pozo. 4.2. Comparación operativa de modelos Es importante desde el nivel operativo, que cualquier modelo genere una predicción de la ocurrencia del evento de pega con un tiempo de antelación razonable, para que los operadores del equipo de perforación o el equipo de operaciones tome las medidas necesarias para evitar el evento Las alertas generadas en los minutos previos al evento de pega, por evento y por modelo las podemos ver a continuación en la figura 39 Minutos previos al evento donde se genera la alerta por modelo y por evento Media Figura 39: Evaluación de tiempo de predicción de alerta por modelo y por evento. Estos dos enfoques de evaluación nos permiten concluir que, en términos económicos y operativos el modelo seleccionado para su implementación sería el modelo tipo Cat Boost, ya que genera menos costos en términos de errores y adicionalmente, las alarmas para los eventos de pega que detecta, las comienza a generar con media de 5.8 minutos de antelación, los cuales dan mayor claridad a lostomadores de decisiones en términos económicos y operativos para alcanzar un mayor entendimiento del rendimiento del modelo seleccionado. 4.3. Situación actual contra eventual implementación del modelo Para analizar la situación actual con respecto a los eventos de pega de tubería en este campo de interés, se tomará como marco de análisis los últimos diez años. Dentro de esta ventana de análisis, se han perforado 19 pozos, con un costo promedio por pozo de 48’500,000 USD. Se han presentado 20 eventos de pega de tubería en los cuales severos, en los cuales no se ha podido recuperar la sarta de perforación y se ha tenido que recurrir a eventos remediales, con un costo promedio por trabajo de 2’828,000 USD con 15 días de operaciones. Esto quiere decir que, en promedio, un pozo tiene 1.05 eventos de pega con tubería perdida, por lo tanto, el costo promedio por pozo en términos de trabajos remediales asociados a eventos de pega de tubería suma 2’969,000 USD y 15.75 días adicionales de operaciones. Si decidimos poner en producción el modelo seleccionado por este proyecto, este se va a equivocar y estos errores costarían en promedio 2’580,000 USD. Así que, al usar este modelo como en la toma de decisiones podría generar un ahorro potencial de 389,400 USD por pozo, lo que corresponde a un ahorro en costos asociados a evento remediales de pega de tubería de un 13%. Este análisis se resume en la figura 40. Figura 40: Análisis económico de la situación actual contra el costo de los errores del modelo en producción. Otro aspecto para tener en cuenta en las implicaciones de la utilización de un modelo de ese tipo es que, al evitar estos trabajos remediales asociados a los eventos de pega de tubería hay un ahorro en tiempo, el cual correspondería a cerca de 15.75 días por pozo. Si estas actividades remediales no se llevan a cabo (gracias a que el modelo predice los eventos que las harían necesarias) estaríamos hablando de que el pozo estaría produciendo petróleo 15.75 días antes, días en los cuales se esperaría una producción (promedio de producción del campo) de 2000 bbl/día de un crudo de muy alta calidad, con un precio por barril promedio de 40 USD/bbl, lo cual nos llevaría a registrar un diferido positivo de producción gracias a llegar a un first oil más temprano que el esperado que generaría una ganancia de 1’260,000 USD por pozo. Este análisis se resume en la figura 41. Estos dos ahorros estimados (reducción de costos por eventos de pega de tubería y producción diferida gracias a un first oil temprano) nos permiten cuantificar un impacto total de implementación del modelo de 1’649,400 USD, que corresponden a un 3% del costo total de un pozo en este campo. Este análisis se resume en la figura 42. Figura 41: Análisis de ahorros generados por producción diferida gracias a un first oil temprano. Figura 42: Impacto en ahorros totales potenciales por uso del modelo. 5. Conclusiones y trabajos futuros ✓ El uso de herramientas y metodologías actuales permite el procesamiento de datos no estructurados que contienen información de actividades de perforación de pozos, datos abundantes y necesarios para la planeación de pozos en campos recién adquiridos por nuevas licencias de operación de bloques. Sin embargo, este trabajo es aun altamente demandante de habilidades en programación específicas y de elevadas horas hombre para el procesamiento de esta información. ✓ La realización de un análisis estadístico de datos y la construcción de un modelo basado en árboles de decisiones permitió evaluar y evidenciar que existen variables que impactan mas la probabilidad de ocurrencia de los eventos de pega de tubería, tales como la altura del bloque (Block Height) lo que implica que los eventos se dan para valores bajos de esta variable (cerca de la conexión de la siguiente parada de tubería) y la presión de bombeo (Pump Pressure); lo cual corresponde a la experiencia operacional. ✓ Se pudo evidenciar que definitivamente hay un cambió en las variables que explican el fenómeno de la ocurrencia de un evento de pega de tubería, esto se consiguió también gracias al ver a través de la distribución de estas variables en los instantes previos a la ocurrencia del evento. Lo que nos confirma que el personal que monitorea los parámetros en tiempo real debe estar muy atento a los cambios de tendencia de estas variables. ✓ La utilización de diferentes modelos de inteligencia artificial (supervisados, no supervisados, del tipo machine learning o deep learning) consiguen llegar a niveles explicativos satisfactorios (superiores al 90% de métricas planteadas), sin embargo, estos modelos deben ser soportes para la toma de decisiones y por ahora no deberían reemplazar a un monitorista de datos. ✓ Se logró el entrenamiento de un modelo que generara alertas previas a un evento de pega de tubería con suficiente antelación (cerca de 5.8 minutos), lo cual, es un tiempo razonable operativamente hablando, ya que es un intervalo de tiempo adecuado para que el tomador de decisiones pueda contrastar otras fuentes de información y tomar la decisión que minimice la ocurrencia de eventos no deseados tales como la pega de tubería. ✓ Los modelos construidos para cualquier tipo de problema deben ser evaluados bajo las métricas clásicas de la ciencia de datos, sin embargo, con el fin de lograr mayor aceptación con los tomadores de decisiones operativas, se hace necesario introducir métricas o metodologías que involucren el conocimiento del negocio, con el fin de mejorar los niveles de aceptación y comprensión de los modelos desarrollados, sus aplicaciones, riesgos, errores y rendimiento. ✓ La construcción de un modelo y su evaluación se hace mas aceptable con los tomadores de decisiones si se realiza una evaluación económica del modelo, lo que permite velocidades y niveles de aceptación mas elevado en los tomadores de decisiones financieras y estratégicas. ✓ Con el fin de la información correspondiente a la perforación de los pozos sea más fácilmente aprovechable en el futuro, es importante que las compañías, tanto operadoras, contratistas de perforación y de servicios tengan un modelo de gobernanza de datos, junto con una infraestructura definida para su almacenamiento y posterior conservación. ✓ Se recomienda, para trabajos futuros incluir más variables que podrían ofrecer información adicional para la construcción de un modelo más robusto, tales como: formaciones, profundidad de la sarta, información de lodo de perforación, datos de geomecánica estáticos y en tiempo real, datos de sensores en fondo, etc. ✓ Con el fin de realizar la validación de este modelo, se recomienda su implementación en algún programa piloto dentro de una sala RTO (Real Time Operations), con el fin de validar su capacidad predictiva con un pozo en tiempo real. ✓ Se sugiere la construcción de un modelo análogo para otros campos, con mayor cantidad de eventos y mayor cantidad de pozos, con el fin de compensar la utilización potencial de más variables explicativas. ✓ Se recomienda para enfoques posteriores, la utilización de otras arquitecturas de redes neuronales, y revisar otros parámetros de ajuste para el entrenamiento del modelo, tales como funciones de activación, optimizadores, ventanas de predicción, dropout rates, etc. 6. Referencias Ahmed K. Abbas, Iraqi Drilling Company; Ralph Flori and Haidar Almubarak. (2019). Intelligent Prediction of Stuck Pipe Remediation Using Machine Learning Algorithms. https://doi.org/10.2118/196229-MS. Ali M. (2020). PyCaret: An open source, low-code machine learninglibrary in Python. https://www.pycaret.org. Chollet, F., & others. (2015). Keras. GitHub. Retrieved from https://github.com/fchollet/keras. Chamkalani A, Pordel M, Poordad S. Petroleum University of Technology Iran. (2013). Support Vector Machine Model: A New Methodology for Stuck Pipe Prediction. https://doi.org/10.2118/164003-MS. Chawla N, Bowyer K, Hall L, Kegelmeyer W. (2002). SMOTE: Synthetic Minority Over-sampling Technique. 10.1613/jair.953. Islam Al-Baiyat, SPE, and Lloyd Heinze, SPE, Texas Tech University (2012). Implementing Artificial Neural Networks and Support Vector Machines in Stuck Pipe Prediction. https://doi.org/10.2118/163370-MS. Miss Lei Wang (2018). Advanced Multivariate Time Series Forecasting Models. DOI:10.3844/jmssp.2018.253.260. Murillo A, SPE, Neuman J, SPE, University of Houston, Robello S, SPE, Halliburton (2009). Pipe Sticking Prediction and Avoidance Using Adaptative Fuzzy Logic and Neural Network Modeling. https://doi.org/10.2118/120128-MS. M.W. Biegler, Exxon Production Research Co., and G.R. Kuhn, Exxon Co. USA. (1994). Advances in Prediction of Stuck” P“ipe Using Multivariate Statistical Analysis. https://doi.org/10.2118/27529-MS. Pedregosa F, Varoquaux G, Gramfor A, Michel V, Thirion B, Grisel O, Blondel M, Prettenhofer P, Weiss R, Dubourg V, Vanderplas J, Passos A, Cournapeau D, Brucher M, Perrot M, Duchesnay E; https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html. 12(85):2825−2830, 2011. Rohatgi A. WebPlotDigitizer (2021). https://automeris.io/WebPlotDigitizer. Version: 4.5 https://doi.org/10.2118/196229-MS https://www.pycaret.org/ https://github.com/fchollet/keras https://doi.org/10.2118/27529-MS https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html https://automeris.io/WebPlotDigitizer Sadlier A, Baker Huges, Says I, Baker Huges, Hanson R, Verdance Technology (2013). Automated Decision Support to Enhance While-Drilling Decision Making: Where Does it fit Within Drilling Automation? https://doi.org/10.2118/163430-MS. Salminen K, Cheatham C, Smith M, Valiullin K. (2017). Stuck-Pipe Prediction by Use of Automated Real-Time Modeling and Data Analysis. https://doi.org/10.2118/178888-PA. Siruvuri, C., Nagarakanti, S., and R. Samuel. (2006). Stuck Pipe Prediction and Avoidance: A Convolutional Neural Network Approach. https://doi.org/10.2118/98378-MS. Swets JA. (1988). Measuring the accuracy of diagnostic systems. Science. 10.1126/science.3287615. PMID: 3287615. https://doi.org/10.2118/163430-MS https://doi.org/10.2118/98378-MS