25402

Samuel Rodriguez

26/5/2024

¡Este material tiene más páginas!

Vista previa del material en texto

GENERACIÓN DE UN MODELO PREDICTIVO PARA EVENTOS DE PEGA DE
TUBERIA EN POZOS DE PETRÓLEO

Trabajo de Grado Presentado A:
Departamento De Ingeniería Industrial

Presentado Por:
Diego Andrés Ojeda Vargas

Asesor: Adriana Abrego
Pre-Asesor: Astrid Bernal

Bogotá, Colombia
Noviembre de 2021
Universidad De Los Andes
Departamento De Ingeniería Industrial
Tabla de contenido

1. Introducción ............................................................................................................................. 3
2. Descripción del problema .................................................................................................... 3
3. Metodología ............................................................................................................................. 5
3.1. Planteamiento del problema ........................................................................................ 5
3.2. Procesamiento de datos no estructurados ............................................................. 7
3.3. Limpieza de datos ........................................................................................................ 11
3.3.1. Valores nulos ......................................................................................................... 11
3.3.2. Valores anómalos ................................................................................................. 11
3.3.3. Ajuste de granularidad de las series de tiempo ........................................... 12
3.3.4. Imputación de valores nulos ............................................................................. 13
3.3.5. Suavizado de series de tiempo ......................................................................... 14
3.4. Análisis estadístico de datos .................................................................................... 16
3.4.1. Distribución de series de tiempo ..................................................................... 16
3.4.2. Correlaciones ........................................................................................................ 19
3.5. Prueba y selección de modelos ............................................................................... 22
3.5.1. Modelos supervisados de machine learning. ............................................... 22
3.5.2. Modelo no supervisado de machine learning ............................................... 26
3.5.3. Modelo supervisado de deep learning ........................................................... 27
3.5.4. Comparación de resultados de los modelos a evaluar .............................. 30
4. Análisis económico y operativo de modelos ........................................................ 30
4.1. Comparación económica de modelos ................................................................ 31
4.2. Comparación operativa de modelos ................................................................... 33
4.3. Situación actual contra eventual implementación del modelo .................... 34
5. Conclusiones y trabajos futuros .............................................................................. 36
6. Referencias .................................................................................................................... 38

1. Introducción
La perforación de pozos de petróleo y gas es una de las actividades de ingeniería
más retadoras desarrolladas por el ser humano en el último siglo, que ha
apalancado el gran desarrollo industrial y tecnológico que nos ha permitido llevar
la civilización a niveles de crecimiento nunca vistos.
Desde que, en 1859 en Titusville, Pensilvania, el coronel Edwin Drake comenzara
a perforar el primer pozo de petróleo de la historia moderna hasta nuestros días,
donde se perforan cerca de 65,000 pozos al año en 2019
(https://www.oedigital.com/news/465619-65-000-wells-will-be-drilled-in-2019) la
industria de la perforación de pozos ha venido revolucionando la forma en la que
se perforan los pozos: El cambio de perforación a percusión por perforación
rotativa, el uso de herramientas para la perforación direccional y finalmente el uso
de sensores para monitorear los parámetros de perforación. Sin embargo, el uso
de esta información se ha venido usando Post-Mortem, es decir, después de
perforados los pozos la información se utiliza para realizar análisis de rendimiento,
tiempos no productivos (NPTs) y costos.

El objetivo de este proyecto es encaminarnos hacia una nueva revolución en la
forma de perforar pozos, una revolución orientada la toma de decisiones basadas
en datos, que nos permita utilizar la gran cantidad de datos acerca de la perforación
de nuestros pozos y usarla para evitar minimizar los eventos no deseados,
generando reducciones de tiempo y costo.

2. Descripción del problema
La perforación de pozos de petróleo es una ciencia que involucra una gran cantidad
incertidumbre en las variables que gobiernan su comportamiento: geología de las
formaciones a perforar, propiedades mecánicas de las rocas, estructuras
encontradas en el subsuelo, tipos de herramientas utilizadas, parámetros de
perforación a usar, etc. Esta situación sumada a los grandes costos asociados a
estas actividades, hacen que la optimización y reducción de costos sean palabras
usadas todos los días en las operaciones de perforación de pozos.

Una de las principales fuentes de tiempos no productivos (NPT) son los eventos
de tubería pegada (Stuck Pipe Events), los cuales se dan durante el desarrollo de
la perforación de un pozo (22 % del NPT total), son de diferentes características y
debidos a diversas causas, las cuales, varían entre pozos, campos, regiones y
compañías. Se calcula que los eventos de Stuck Pipe cuestan anualmente en el
mundo alrededor de 960 MM USD (Oilfield Review Schlumberger. October 1991)
y ocurren en el 15% de los pozos perforados. Por tal razón, las compañías se han
interesado siempre en reducir la ocurrencia de estos eventos.

Un evento de Stuck Pipe se da cuando la tubería de perforación no se puede mover
libremente y las fuerzas necesarias para liberarla son mayores a las disponibles.

Con el fin de lleva a cabo la perforación de un pozo, se monitorean parámetros
utilizados durante la perforación de un pozo (segundo a segundo), tales como: el
torque que siente la tubería mientras se perfora (TQ), la presión de bombeo del
fluido de perforación (SPP), el peso de la sarta de perforación (Hook Load – HL),
las revoluciones por minuto a las que gira la tubería de perforación (RPM), etc.

Figura 1: Ejemplos de Eventos de Stuck Pipe (izq-der): Empaquetamiento por limpieza,
Empaquetamiento por derrumbes, Pega por geometría
Figura 2. Ejemplos de Eventos de Stuck Pipe (izq-der): Geometria por ojo de llave, Pega diferencial.
En ese orden de ideas, para las compañías operadoras es importante reducir las
ocurrencias de eventos de Stuck Pipe, utilizando las lecciones aprendidas de
eventos ocurridos anteriormente, que se tienen claramente documentados con
datos de los parámetros monitoreados.

Esta necesidad viene a intentar ser resuelta por este proyecto, que busca hacer un
análisis de los datos de los eventos de Stuck pipe, evaluar los parámetros que
estadísticamente inciden en las probabilidades de ocurrencia de los eventos y
generar un modelo que pueda predecir los eventos de Stuck pipe; con el fin de
minimizar los tiempos y costos perdidos, generando valor para la compañía
permitiendo más presupuesto para la ejecución de los proyectos.

Cabe resaltar que, la mayoría de la información asociada a la perforación de pozos
de los últimos 5 años está siendo almacenada en datos estructurados y en bases
de datos de las compañíasde servicios (quienes prestan los servicios de toma de
datos a través de sensores) y de las compañías operadoras (quienes administran
el campo y el crudo producido). Sin embargo, cuando una compañía operadora
obtiene un bloque en el cual operar, esta licencia de operación viene acompañada
con un conjunto de información acumulada a lo largo de los años, que comprende
datos no estructurados (imágenes, archivos en diferentes formatos) que es
necesaria para comprender el estado del campo y poder realizar la planeación de
nuevos pozos.
3. Metodología

3.1. Planteamiento del problema
Para este proyecto, la compañía operadora Petróleos De Los Andres recibió un
bloque de exploración, con el fin de perforar una serie de pozos en búsqueda de
crudo. Este bloque cuenta con información de pozos previamente perforados, pero
estos se ejecutaron hace más de 8 años, esto implica que la información disponible
no está en las mejores condiciones de procesamiento.

En esta situación en particular, se cuenta con información de sensores de varios
pozos almacenada en archivos de formato .PDF, lo cual conlleva un esfuerzo
adicional de procesamiento de esta información y será el primer reto por superar
en este proyecto.

Para la perforación de sus pozos, esta compañía ha identificado que la principal
fuente de eventos no deseados son los llamados Eventos De Pega De Tubería, así
que para el desarrollo de este proyecto se busca desarrollar un modelo predictivo
de eventos de pega de tubería que pueda detectar estos eventos con suficiente
antelación, para que el personal operativo pueda tomar decisiones durante las
operaciones y así evitar la ocurrencia de estos eventos no deseados. La
implementación de este modelo en producción será contemplada en proyectos
posteriores. Adicionalmente, se espera concluir cuales son las variables que más
tienen impacto en la aparición de los eventos de pega de tubería, con el fin de,
ejercer mas control sobre los valores arrojados por los modelos de simulación de
perforación de pozos desde la planeación de los pozos.

Con el fin de afrontar estos retos, se realizará una limpieza de datos extraídos:
remoción de valores anómalos, imputación de datos, etc. Posteriormente se
realizará un análisis estadístico de datos, el cual nos llevará a visualizar la
distribución y comportamiento de las distintas variables y su correlación entre ellas
mismas y la variable a predecir, en este caso, la ocurrencia o no de eventos de
pega de tubería. Luego, se realizará una etapa correspondiente a la prueba y
selección de modelos, que permitan predecir, con razonable antelación, la
ocurrencia de eventos de pega de tubería. Se contempla la utilización de modelos
supervisados de Machine Learning que permitan capturar relaciones no lineales
entre las diferentes variables (Modelos Tipo Boosting), modelos no supervisados
usados para detección de anomalías (isolation forest) y modelos supervisados de
Deep Learning que tienen en cuenta la conectividad temporal del fenómeno (redes
neuronales tipo LSTM).

Es importante resaltar que los modelos se evaluarán, desde el enfoque de ciencia
de datos, con la métrica conocida como Recall, ya que se busca minimizar la
cantidad de falsos negativos (ocurrencia del evento de pega de tubería y que el
modelo no lo detecte), ya que su costo es 24 veces mayor que un falso positivo y
esta métrica se enfoca en la reducción de los falsos negativos.

Una vez evaluados los modelos con la métrica definida, se procede a la siguiente
etapa, que corresponde a un análisis económico de los mismos, lo cual permitirá
evaluar los impactos económicos de su implementación y compararlos con la
situación actual en las operaciones de perforación. Paralelamente también se
medirá el tiempo promedio de antelación con el que cada modelo anticiparía la
aparición de los eventos de pega de tubería, medida sumamente importante desde
la óptica operativa, ya que nos hablará del tiempo que tendremos para tomar
decisiones en tiempo real con el fin de evitar estos eventos no deseados.

La metodología presentada para el desarrollo de este proyecto se ilustra en la
figura 3.

3.2. Procesamiento de datos no estructurados
Los datos disponibles para el desarrollo de este proyecto presentan un desafío
inicial, los datos disponibles son series de tiempo representadas en archivos de
formato .PDF que contienen la información de sensores necesaria para el análisis
de los parámetros que modelan el fenómeno de pega de tubería.
Desafortunadamente, de estos registros no existe registro numérico, por lo tanto,
se hace necesario procesar estos datos no estructurados.

Para este proyecto, se logró obtener información de 3 pozos (cada uno con más
de 200 días de operación), en los cuales hay 16 registros con eventos de pega de
tubería. Estos pozos pertenecen a un campo especifico y los eventos de pega de
tubería se dan a diferentes profundidades y formaciones, las cuales no se tienen
dentro del conjunto de datos. Un ejemplo de estos archivos se puede visualizar en
la figura 4.

Con el fin de poder procesar estos datos no estructurados, se utilizó un aplicativo
con licencia de software libre llamado WebPlotDigitizer (Ankit Rohatgi, April, 2019-
https://automeris.io/WebPlotDigitizer), la cual permite extraer los valores
numéricos de las series de tiempo de las variables de interés de los archivos en
formato PDF.

Se carga el archivo en formato .PDF, se definen los ejes, las escalas (figura 5); se
ubica en la interfaz el color de la serie de tiempo que se quiere extraer y la zona
donde esta serie de tiempo se dibuja (figura 6). Una vez realizado el mapeo de la
Figura 3. Etapas de desarrollo para la metodología del proyecto.
serie, se pueden extraer los datos de la serie y exportarlos en un archivo de fácil
lectura tales como el formato .csv (ver figura 7).

Figura 4: Drilling Data Plot - Grafica de monitoreo de los parámetros de perforación de un pozo.

Figura 5: Herramienta para procesamiento de archivos PDF: definición de ejes y escala.
Figura 6: Herramienta para procesamiento de archivos PDF: selección del color y ubicación de la serie de tiempo

Esta metodología permitió extraer la información asociada a los siguientes
parámetros de perforación:

- ROP (fth/hr): Rate Of Penetration, tasa de penetración o tasa de
perforación, la cantidad de pies que se avanzan en una unidad de tiempo
mientras se perforar, en este caso pies por cada hora.
- Block Height (ft): posición del bloque de la torre que sube o baja desde la
altura de la mesa rotaria (0 ft) hasta la parte superior de la torre (110 ft), en
este caso esta altura se mide en pies.
- Hook Load (Klb): Peso en el gancho sobre el cual está colgado el bloque
y la tubería de perforación, viene dado en miles de libras de peso.
- WOB (Klb): Weight On Bit, peso sobre la broca que se aplica durante las
operaciones, se registra en superficie en miles de libras de peso.
- Torque (Klb-ft): Torque, que representa la medida de la fricción rotacional
que tiene el hueco con la sarta, se mide en miles de libras por pie.
- RPM (rpm): Velocidad de rotación de la tubería dadas en revoluciones por
minuto.
- Flow In (GPM): Tasa de flujo con la que se bombea fluido al pozo a través
de la tubería, que se mide en galones por minuto.
- Pump Pressure (Psi): Presión de bombeo medida en superficie al bombear
fluido hacia el pozo a través de la tubería, en este caso se mide en libras
por pulgada cuadrada.

Figura 7: Herramienta para procesamiento de archivos PDF: Extracción de datos de la serie y exporte de datos.
Estos parámetros se tienen durante toda la operación, es decir, antes,durante y
después de los eventos de pega. Con el fin de captar el comportamiento normal
del pozo y los instantes previos antes de la aparición del evento no deseado, se
tomarán los datos de los sensores diez horas antes la pega de tubería y una hora
después de la ocurrencia del evento, con el fin de que los modelos a evaluar
puedan capturar y representar los fenómenos físicos involucrados en la perforación
de pozos y los eventos de pega de tubería.

3.3. Limpieza de datos
El uso de la herramienta de procesamiento WebPlotDigitizer no es ciento por ciento
confiable en la lectura de parámetros a partir de la imagen en un archivo de formato
.PDF, así que se hace necesaria una revisión de los valores nulos y valores
anómalos.

3.3.1. Valores nulos
Con respecto a los valores vacíos, se puede observar que no presentan mayor
porcentaje de aparición en en dataset excepto en las variables ROP y Pump
Pressure (figura 8), las cuales, luego de realizar una revisión en las gráficas, se
puede evidenciar que corresponden a valores cero y la herramienta no los identifica
debido a la superposición de la línea de eje que es de color negro lo que con lleva
a una pérdida de información representados en valores nulos (figura 10).

Para esta situación, se imputa con el valor de cero los valores nulos de las variables
RPM y ROP. Para las demás variables, los valores nulos fueron removidos del
conjunto de datos.

3.3.2. Valores anómalos
Con respecto a valores anómalos, los que podrían así son los valores negativos
que tomen las variables. Estos se ven representados de forma porcentual en la
figura 9. El tratamiento de estos valores anómalos se abordó imputándolos con
cero, entendiendo que podrían está fuera de escala.

Figura 8: Tabla con porcentajes de valores nulos en el conjunto de datos.
Figura 9: Tabla con porcentajes de valores negativos en el conjunto de datos.

Así mismo, haciendo uso del conocimiento del negocio, se detectó que había
valores de torque cuando las RPM’s eran iguales a cero, lo cual no tiene sentido
físico, por lo tanto, aquellos valores de torque (previos al evento de pega) que
fueran diferentes de cero mientras los valores de Torque fueran cero, se imputaron
con un valor de cero.

3.3.3. Ajuste de granularidad de las series de tiempo
Otro reto abordado de los datos obtenidos del aplicativo de procesamiento es que,
los puntos no tienen la misma granularidad, haciendo imposible la unión de las
series de tiempo (figura 11). Con el fin de solucionar este impase, se realizó un
Resamplig a tres segundos para cada serie de tiempo, con el fin de coincidir en el
mismo índice y así poder unificar las mismas en un solo set de datos.

Figura 10: Intervalos de pérdida de información por solapamiento de eje sobre la serie de tiempo de interés.
Figura 11: Series de tiempo con diferente granularidad

Este proceso de Resampling con sets de datos de diferente granularidad genera
intervalos en los cuales se aplica un Upsampling o un Downsampling, para el
primer caso, se generan valores nulos donde no hay valores espaciados a tres
segundos, para el segundo se realiza usando el promedio de los valores que se
encuentran dentro del rango de los 3 segundos (figura 12).
3.3.4. Imputación de valores nulos
Con el fin de imputar estos valores vacíos, se usó un algoritmo de imputación Knn
imputer, usando los veinte vecinos más cercanos, con el fin de capturar el
comportamiento general del intervalo y que afectara lo menos posible la tendencia
general (figura 13).

Figura 12: Set de datos con valores vacíos luego del Upsampling a 3 segundos.
Figura 13: Set de datos después del proceso de imputación.
3.3.5. Suavizado de series de tiempo
Finalmente, al observar los datos obtenidos, podemos ver que la información tiene
demasiado ruido (figura 14), lo que puede generar dificultades a los modelos a
construir. Para esta situación, se decidió realizar un promedio móvil usando los
veinte puntos previos, lo cual mantendría la tendencia de la serie de tiempo, pero
eliminando valores de ruido (figura 15) y dejando el set de datos listo para la
siguiente etapa del desarrollo del proyecto.

Figura 14: Datos procesados con ruido.

La etapa de limpieza y preparación nos deja un conjunto de datos compuesto por
15 eventos de pega de tubería, con una media de 10 horas previas a la aparición
del evento no deseado, 30 minutos posteriores al evento de pega de tubería con
una granularidad de un punto cada 3 segundos. Con estas características se tienen
9 variables predictoras (Block Height, Hook Load, WOB, Torque, Flow In, Pump
Pressure, RPM, ROP y Actividad) con el objetivo de precedir una variable
categórica binaria (Pega), lo que nos lleva a un set de datos de 10 columnas con
179,468 puntos.

Figura 15: Datos procesados sin ruido después de realizar aplicar una media móvil.
3.4. Análisis estadístico de datos
Con el fin de comenzar a buscar relaciones entre las variables y su impacto en la
aparición de eventos de pega de tubería, se procede a realizar un análisis
estadístico de datos.

3.4.1. Distribución de series de tiempo
Comenzamos etiquetando manualmente los eventos de pega con ayuda de
información contenida en los reportes diarios de perforación, que informan el
momento justo del evento de pega. Se crea también otra variable importante que
refleja la actividad que se venía realizando: bajando tubería (RIH – Run In Hole) o
sacando tubería (POOH – Pull Out Of Hole), la cual nos puede ayudar a encontrar
diferencia en el comportamiento de las variables durante una actividad u otra.

El primer análisis importante hace referencia a si existe una diferencia importante
en la distribución de las variables un tiempo antes del evento de pega dependiendo
de la actividad realizada (figura 16), donde se puede evidenciar:

- La media de la altura del bloque previa a los eventos de pega durante RIH
es cercana a la mitad del recorrido de la parada de tubería (60 ft), en cambió
las pegas sacando tubería (POOH) se dan mas cerca de la conexión (20 ft)
- La media de la presión de bombeo previa a los eventos de pega metiendo
tubería es mucho mayor (1350 psi) que sacando tubería (cercano a 0 psi)
debido a que la mayoría de los viajes sacando tubería se hacen en
elevadores (sin bomba) y los viajes metiendo tubería se realizan lavando
(con bomba encendida).
Sin embargo, se considera importante revisar la distribución de cada variable
varios intervalos de tiempo antes, con el fin de evidenciar si existe algún cambio
en la distribución de esta a medida que se acerca el evento de pega de tubería
(figuras 17 y 18).

Figura 16: Distribución de variables 5 minutos antes de la pega, dependiendo de la actividad
realizada
Figura 17: Distribución de variables 1, 5 y 15 minutos antes de la pega, dependiendo de la actividad realizada

Con el fin de evitar la influencia de los valores extremos, se analiza la mediana de
los parámetros 1, 5 y 15 minutos antes del evento de pega, con el fin de evidenciar
los cambios en las variables con el paso del tiempo (figura 19).

Figura 18: Distribución de variables 1, 5 y 15 minutos antes de la pega, dependiendo de la actividad
realizada
RIH POOH
Figura 19: Mediana de las variables de interés 1, 5 y 15 minutos antes de la pega, dependiendo de la actividad realizada.
De igual forma, es importante conocer la distribución de la variable binaria a
predecir (figura 20), donde se apreciaun evidente desbalanceo de clases, el cual,
será manejado durante la preparación de los datos previo a la construcción de los
modelos a probar para la predicción.

3.4.2. Correlaciones
Con el fin de realizar un análisis de correlación entre las variables, se realizó un
gráfico tipo Pairs Plot (figura 21), donde se evidencia que no existe una
autocorrelación evidente entre las variables, es decir, todas aportan algo de
varianza la ocurrencia de los eventos de pega de tubería.

También, podemos evidenciar de forma cuantitativa que las variables no tienen
evidencias de autocorrelación tanto en actividad sacando tubería (POOH) y
metiendo tubería (RIH) en la figura 22.

Con respecto a las variables que explicarían de forma lineal la ocurrencia de un
evento de pega de tubería, se realizó también mapas de calor con las correlaciones
correspondientes (figura 22). Aquí se puede evidenciar que la variable que más
impacta de forma lineal en la ocurrencia de los eventos de pega de tubería es Pump
Pressure, presente con valores de correlación más negativas en ambas
actividades.

Figura 20: Distribución de la variable binaria a predecir: ocurrencia del evento de pega de tubería, segmentado dependiendo de
la actividad.

Figura 21: Pairs Plot de las variables que componen el set de datos, segmentado dependiendo de la actividad.

Figura 22: Mapas de calor con matriz de correlación de las variables del conjunto de datos, segmentado
dependiendo de la actividad.
Figura 23: Mapas de calor con valores de correlación entre la variable a predecir (Ocurrencia de pega de
tubería) y las variables predictoras, segmentado dependiendo de la actividad.
3.5. Prueba y selección de modelos
Luego de haber realizado el alistamiento de las series de tiempo correspondientes
al conjunto de datos y en análisis estadístico de las mismas, el siguiente paso es
la construcción de modelos que nos permitan predecir la ocurrencia de eventos de
pega de tubería, con un tiempo razonable de antelación, que permita al operador
del equipo de perforación o a los tomadores de decisiones en operaciones e
ingeniería, tener una herramienta adicional de soporte para decidir los pasos
inmediatos a seguir, con el fin de minimizar la ocurrencia de evento no deseados
asociados con eventos de pega de tubería.

3.5.1. Modelos supervisados de machine learning.
Entendiendo que los fenómenos físicos que pueden explicar la ocurrencia de
eventos no planeados se decidió probar diferentes modelos de machine learning
supervisados con el fin de evaluar su capacidad predictiva. Este análisis se realizó
usando una librería de Python conocida como Pycaret, la cual permite realizar
evaluaciones de diferentes modelos, transformaciones y preparación de datos con
menos líneas de código. Esta librería usa las funciones clásicas de Sckit-Learn
para cada modelo (https://pycaret.org/).

Una de las tareas previas a la construcción de los modelos de interés, es el
tratamiento del desbalanceo de clases en la variable a predecir. Con el fin de darle
tratamiento a esta situación, se decide usar una metodología de Data
Argumentation conocida como SMOTE, que consiste en duplicar los ejemplos de
la clase minoritaria, lo cual balancea el conjunto de datos, pero sin añadir
información adicional (N. V. Chawla, et al., 2011).

Luego se procede a realizar pruebas con diferentes modelos con una métrica
definida, el Recall, que permite enfocarse en minimizar la cantidad de falsos
negativos, ya que, en este campo, el costo de un falso negativo (que aparezca un
evento de pega y el modelo no lo detecte) cuesta cerca de 150.000 USD y un falso
positivo (que el modelo prediga la ocurrencia de un evento de pega que no sea
real) cuesta cerca de 6250 USD, este ranking lo podemos ver en la figura 24.

El siguiente paso consiste en realizar una optimización de hiper-parámetros
usando validación cruzada (10-Cross Fold Validation) con la metodología de
random search con 100 combinaciones de parámetros, esto aplicado a los 4
modelos con mayor Recall, con el fin de seleccionar el modelo adecuado. Esta
estrategia nos permite ver que el modelo con mejores métricas es Cat Boost (figura
25).

https://pycaret.org/
https://arxiv.org/search/cs?searchtype=author&query=Chawla%2C+N+V

Figura 24: Ranking de modelos evaluados para selección.
Cat Boost Random Forest
ExtraTrees Cassifier Extreme Gradient Boosting
Figura 25: Métricas posteriores al ajuste de hiper-parámetros con 10-fold cross validation.
También evaluamos el rendimiento de cada modelo a través de la matriz de
confusión de cada uno (aplicada al conjunto de prueba, correspondiente al 30%
del conjunto de datos. Aquí podemos observar (figura 26) que el modelo
seleccionado tiene un menor número de falsos negativos (eventos de pega reales,
pero no predichos por el modelo).

Una vez seleccionado el modelo, se procede a optimizar el threshold de decisión
para la asignación de la clase a predecir (Pega). Esta optimización la realizamos
teniendo en cuenta el costo de los errores:
- Falso Positivo: El modelo predice un evento de pega que no es real
generaría que se paren las operaciones, se reciproque la tubería y se circule
durante 30 minutos para mejorar las condiciones del pozo y evitar un evento
de tubería. Esto costaría aproximadamente 6,250 USD.
- Falso Negativo: Se presenta un evento de pega de tubería que el modelo
no detecta, esto provocaría que se diera el evento no deseado que, de
media, tardaría un día completo de operaciones perdido intentando soltar la
tubería. Esto costaría aproximadamente 150,000 USD.
Cat Boost Random Forest
ExtraTrees Cassifier Extreme Gradient Boosting
Figura 26: Matrices de confusión de modelos a evaluar
Esta metodología nos permite minimizar una función de costo de errores, que nos
arroja un valor óptimo de threshold de 0.4317 (figura 27).

Finalmente, con el modelo seleccionado de tipo Categorical Boosting Classifier que
es un modelo constituido por arboles de decisiones, podemos generar una gráfica
con el atributo conocido como Feature Importance, que nos permite medir el error
en la predicción al permutar los valores de cada variable. Esta metodología nos
permite entender qué variables impactan mas y menos en la explicabilidad del
modelo (figura 28), lo que nos permite afirmar que las variables Block Height y
Pump Pressure tienen un mayor impacto en la probabilidad de ocurrencia de un
evento de pega de tubería y la variable ROP tiene un menor impacto en la
probabilidad de ocurrencia de un evento de pega de tubería.

Figura 27: Función de optimización de threshold para minimizar la función de costo.
Figura 28: Importancia de las variables para el modelo seleccionado tipo Cat Boost.
3.5.2. Modelo no supervisado de machine learning
Entendiendo que los eventos de pega de tubería son eventos raros, pero con un
alto costo, se decide realizar la prueba con un modelo de detección de anomalías
no supervisado conocido como Isolation Forest (Fei Tony Liu, et al,. 2009)

Este modelo se entrena si etiquetas (no supervisado) pero requiere un parámetro
a definir que es el porcentaje de valores anómalos, valor que se usó para este caso
fue un 5%, ya que corresponde a la proporción entre los datos etiquetados como
puntos sin pega (10 horas)y los puntos correspondientes a eventos de pega (30
min).

Para este modelo, no fue posible la detección de eventos positivos de pega en el
conjunto de prueba, lo que se ve reflejado en la matriz de confusión y en las
métricas (figura 29).

Figura 29: Matriz de confusión y métricas correspondientes al modelo no supervisado Isolation Forest.
https://www.researchgate.net/profile/Fei-Tony-Liu
3.5.3. Modelo supervisado de deep learning
Teniendo en cuenta que el tipo de datos con los que se cuenta series de tiempo,
se decidió realizar la construcción de un modelo haciendo uso de algoritmos de
tipo aprendizaje profundo especializados en problemas de series de tiempo, en
este caso, el tipo de modelo seleccionado fueron redes neuronales tipo LSTM.

Para la construcción de este modelo se tuvo en cuenta una predicción punto a
punto, tomando en cuenta una ventana de doscientos puntos previos para hacer
la predicción del punto siguiente, lo que corresponde a los diez minutos previos, ya
que la granularidad de los datos es un punto cada tres segundos (figura 30)

Posteriormente se procede a construir la arquitectura de la red, la cual tiene una
capa de entrada con 1 neuronas (10 variables), tres capas ocultas con 30, 20 y 10
neuronas tipo LSTM respectivamente y una capa de salida con una neurona, que
es la variable que se quiere predecir. Se usó una tasa de dropout en cada capa de
0.2, con el fin de reducir el sobreajuste, también se utilizó un optimizador tipo
Adam, la función de pérdida usada fue la entropía binaria cruzada y se buscó
optimizar la métrica Recall, para buscar reducir el numero de falsos negativos
(figura 31). La arquitectura se muestra en la figura 32 y representada gráficamente
en la figura 33.

Figura 30: Dimensiones de las matrices de entrada para la red neuronal donde se evidencia el tamaño de la
ventana para la realización de la predicción.
Figura 31: Definición del modelo de red neuronal

Se decide entrenar la red con el 70% de los datos y dejar para prueba el 30%
restante. Luego del entrenamiento, para el cual usamos 10 épocas de recorrido de
la red encontramos el comportamiento de la función de error y de la métrica de
evaluación en la figura 34.

Figura 32: Arquitectura de la red neuronal construida.
Figura 33: Diagrama de la arquitectura de la red neuronal construida.

Al evaluar el rendimiento del modelo a través de la matriz de confusión y las
métricas podemos encontrar los resultados mostrados en la figura 35.

Podemos evidenciar que el modelo captura eventos de pega de tubería, como el
modelo evaluando en primer lugar (Cat Boost) y a diferencia del enfoque con el
modelo no supervisado evaluado (Isolation forest).
Figura 35: Matriz de confusión y métricas correspondientes al modelo supervisado de redes neuronales tipo LSTM.
Figura 34: Comportamiento de la función de error y la métrica a optimizar durante el entrenamiento de la red
neuronal.
3.5.4. Comparación de resultados de los modelos a evaluar
Luego de entrenar y probar los tres enfoques, presentamos las métricas de
comparación de los tres modelos evaluados a continuación (figura 36).

Se puede evidenciar que dos de los tres modelos detectan en gran medida los
puntos con etiqueta de ocurrencia de pega de tuberia (Cat Boost) y uno no logra
detectar estos eventos (Isolation Forest).

4. Análisis económico y operativo de modelos
Al realizar la prueba de diferentes modelos y evaluarlos con las métricas clásicas
de inteligencia artificial se procedería a seleccionar el modelo con la mejor
capacidad predictiva; sin embargo, al intentar implementar estos modelos en las
industrias (en este caso Oil & Gas) los tomadores de decisiones tienden a resistirse
en la adopción de estas herramientas en su labor, debido a la natura resistencia al
cambio y muchas veces a la dificultad de evaluar realmente el impacto de los
aciertos y los errores naturales de los modelos a implementar. Por esta razón, para
este proyecto se decidió realizar una evaluación económica de los tres modelos
probados.

Cat Boost Isolation Forest LSTM
Figura 36: Comparativa de Matrices de confusión y métricas correspondientes a los tres modelos entrenados.
4.1. Comparación económica de modelos
Con el fin de incrementar el nivel de aceptación de estos modelos a partir de la
comprensión de sus métricas y sus implicaciones realizaremos comparativas de
predicción de los tres modelos, cuantificando el costo de sus errores teniendo en
cuenta las reglas de negocio para su evaluación:

- El costo de un falso negativo (que aparezca un evento de pega y el modelo
no lo detecte) cuesta cerca de 150.000 USD.
- El costo de un falso positivo (que el modelo prediga la ocurrencia de un
evento de pega que no sea real) cuesta cerca de 6250 USD.
- Es importante desde el nivel operativo, que cualquier modelo genere una
predicción de la ocurrencia del evento de pega con un tiempo de antelación
razonable, para que los operadores del equipo de perforación o el equipo
de operaciones tome las medidas necesarias para evitar el evento

Al generar las predicciones sobre los pozos del conjunto de datos, podremos
cuantificar (en dólares) la cantidad de errores que tiene cada modelo, junto con el
costo asociado y el tiempo (en minutos) antes de que ocurra el evento por cada
modelo. En la figura 37 podemos ver el análisis para uno de los pozos del conjunto
de datos.

Figura 37: Evaluación económica de los tres modelos, junto con el tiempo medio de aviso antes de la ocurrencia
del evento de pega de tubería.
Con esta metodología se consigue evaluar económicamente lo tres modelos con
métricas económicas y de tiempo de aviso, las cuales permiten explicar a nivel
económico y operativo las implicaciones de la implementación de un modelo de
estas características, un resumen de esta evaluación para todos los pozos del
conjunto de datos se muestra en la figura 38. Donde el costo promedio por viaje se
calcula dividiendo el valor total en 15 (numero de viajes) y el costo por pozo se
calcula multiplicando el costo promedio por viaje por 3 viajes (numero de viajes
promedio por pozo en este campo).

Figura 38: Evaluación económica de los tres modelos par los 15 eventos, junto con su costo promedio por viaje y
por pozo.
4.2. Comparación operativa de modelos
Es importante desde el nivel operativo, que cualquier modelo genere una
predicción de la ocurrencia del evento de pega con un tiempo de antelación
razonable, para que los operadores del equipo de perforación o el equipo de
operaciones tome las medidas necesarias para evitar el evento

Las alertas generadas en los minutos previos al evento de pega, por evento y por
modelo las podemos ver a continuación en la figura 39

Minutos previos al evento donde se
genera la alerta por modelo y por evento
Media
Figura 39: Evaluación de tiempo de predicción de alerta por modelo y por evento.
Estos dos enfoques de evaluación nos permiten concluir que, en términos
económicos y operativos el modelo seleccionado para su implementación sería el
modelo tipo Cat Boost, ya que genera menos costos en términos de errores y
adicionalmente, las alarmas para los eventos de pega que detecta, las comienza a
generar con media de 5.8 minutos de antelación, los cuales dan mayor claridad a
lostomadores de decisiones en términos económicos y operativos para alcanzar
un mayor entendimiento del rendimiento del modelo seleccionado.

4.3. Situación actual contra eventual implementación del modelo
Para analizar la situación actual con respecto a los eventos de pega de tubería en
este campo de interés, se tomará como marco de análisis los últimos diez años.

Dentro de esta ventana de análisis, se han perforado 19 pozos, con un costo
promedio por pozo de 48’500,000 USD. Se han presentado 20 eventos de pega de
tubería en los cuales severos, en los cuales no se ha podido recuperar la sarta de
perforación y se ha tenido que recurrir a eventos remediales, con un costo
promedio por trabajo de 2’828,000 USD con 15 días de operaciones. Esto quiere
decir que, en promedio, un pozo tiene 1.05 eventos de pega con tubería perdida,
por lo tanto, el costo promedio por pozo en términos de trabajos remediales
asociados a eventos de pega de tubería suma 2’969,000 USD y 15.75 días
adicionales de operaciones.

Si decidimos poner en producción el modelo seleccionado por este proyecto, este
se va a equivocar y estos errores costarían en promedio 2’580,000 USD. Así que,
al usar este modelo como en la toma de decisiones podría generar un ahorro
potencial de 389,400 USD por pozo, lo que corresponde a un ahorro en costos
asociados a evento remediales de pega de tubería de un 13%. Este análisis se
resume en la figura 40.

Figura 40: Análisis económico de la situación actual contra el costo de los errores del modelo en producción.
Otro aspecto para tener en cuenta en las implicaciones de la utilización de un
modelo de ese tipo es que, al evitar estos trabajos remediales asociados a los
eventos de pega de tubería hay un ahorro en tiempo, el cual correspondería a cerca
de 15.75 días por pozo. Si estas actividades remediales no se llevan a cabo
(gracias a que el modelo predice los eventos que las harían necesarias) estaríamos
hablando de que el pozo estaría produciendo petróleo 15.75 días antes, días en
los cuales se esperaría una producción (promedio de producción del campo) de
2000 bbl/día de un crudo de muy alta calidad, con un precio por barril promedio de
40 USD/bbl, lo cual nos llevaría a registrar un diferido positivo de producción
gracias a llegar a un first oil más temprano que el esperado que generaría una
ganancia de 1’260,000 USD por pozo. Este análisis se resume en la figura 41.

Estos dos ahorros estimados (reducción de costos por eventos de pega de tubería
y producción diferida gracias a un first oil temprano) nos permiten cuantificar un
impacto total de implementación del modelo de 1’649,400 USD, que corresponden
a un 3% del costo total de un pozo en este campo. Este análisis se resume en la
figura 42.
Figura 41: Análisis de ahorros generados por producción diferida gracias a un first oil temprano.
Figura 42: Impacto en ahorros totales potenciales por uso del modelo.
5. Conclusiones y trabajos futuros
✓ El uso de herramientas y metodologías actuales permite el procesamiento
de datos no estructurados que contienen información de actividades de
perforación de pozos, datos abundantes y necesarios para la planeación de
pozos en campos recién adquiridos por nuevas licencias de operación de
bloques. Sin embargo, este trabajo es aun altamente demandante de
habilidades en programación específicas y de elevadas horas hombre para
el procesamiento de esta información.
✓ La realización de un análisis estadístico de datos y la construcción de un
modelo basado en árboles de decisiones permitió evaluar y evidenciar que
existen variables que impactan mas la probabilidad de ocurrencia de los
eventos de pega de tubería, tales como la altura del bloque (Block Height)
lo que implica que los eventos se dan para valores bajos de esta variable
(cerca de la conexión de la siguiente parada de tubería) y la presión de
bombeo (Pump Pressure); lo cual corresponde a la experiencia operacional.
✓ Se pudo evidenciar que definitivamente hay un cambió en las variables que
explican el fenómeno de la ocurrencia de un evento de pega de tubería, esto
se consiguió también gracias al ver a través de la distribución de estas
variables en los instantes previos a la ocurrencia del evento. Lo que nos
confirma que el personal que monitorea los parámetros en tiempo real debe
estar muy atento a los cambios de tendencia de estas variables.
✓ La utilización de diferentes modelos de inteligencia artificial (supervisados,
no supervisados, del tipo machine learning o deep learning) consiguen llegar
a niveles explicativos satisfactorios (superiores al 90% de métricas
planteadas), sin embargo, estos modelos deben ser soportes para la toma
de decisiones y por ahora no deberían reemplazar a un monitorista de datos.
✓ Se logró el entrenamiento de un modelo que generara alertas previas a un
evento de pega de tubería con suficiente antelación (cerca de 5.8 minutos),
lo cual, es un tiempo razonable operativamente hablando, ya que es un
intervalo de tiempo adecuado para que el tomador de decisiones pueda
contrastar otras fuentes de información y tomar la decisión que minimice la
ocurrencia de eventos no deseados tales como la pega de tubería.
✓ Los modelos construidos para cualquier tipo de problema deben ser
evaluados bajo las métricas clásicas de la ciencia de datos, sin embargo,
con el fin de lograr mayor aceptación con los tomadores de decisiones
operativas, se hace necesario introducir métricas o metodologías que
involucren el conocimiento del negocio, con el fin de mejorar los niveles de
aceptación y comprensión de los modelos desarrollados, sus aplicaciones,
riesgos, errores y rendimiento.
✓ La construcción de un modelo y su evaluación se hace mas aceptable con
los tomadores de decisiones si se realiza una evaluación económica del
modelo, lo que permite velocidades y niveles de aceptación mas elevado en
los tomadores de decisiones financieras y estratégicas.
✓ Con el fin de la información correspondiente a la perforación de los pozos
sea más fácilmente aprovechable en el futuro, es importante que las
compañías, tanto operadoras, contratistas de perforación y de servicios
tengan un modelo de gobernanza de datos, junto con una infraestructura
definida para su almacenamiento y posterior conservación.
✓ Se recomienda, para trabajos futuros incluir más variables que podrían
ofrecer información adicional para la construcción de un modelo más
robusto, tales como: formaciones, profundidad de la sarta, información de
lodo de perforación, datos de geomecánica estáticos y en tiempo real, datos
de sensores en fondo, etc.
✓ Con el fin de realizar la validación de este modelo, se recomienda su
implementación en algún programa piloto dentro de una sala RTO (Real
Time Operations), con el fin de validar su capacidad predictiva con un pozo
en tiempo real.
✓ Se sugiere la construcción de un modelo análogo para otros campos, con
mayor cantidad de eventos y mayor cantidad de pozos, con el fin de
compensar la utilización potencial de más variables explicativas.
✓ Se recomienda para enfoques posteriores, la utilización de otras
arquitecturas de redes neuronales, y revisar otros parámetros de ajuste para
el entrenamiento del modelo, tales como funciones de activación,
optimizadores, ventanas de predicción, dropout rates, etc.

6. Referencias

Ahmed K. Abbas, Iraqi Drilling Company; Ralph Flori and Haidar Almubarak. (2019).
Intelligent Prediction of Stuck Pipe Remediation Using Machine Learning
Algorithms. https://doi.org/10.2118/196229-MS.

Ali M. (2020). PyCaret: An open source, low-code machine learninglibrary in Python.
https://www.pycaret.org.

Chollet, F., & others. (2015). Keras. GitHub. Retrieved from
https://github.com/fchollet/keras.

Chamkalani A, Pordel M, Poordad S. Petroleum University of Technology Iran.
(2013). Support Vector Machine Model: A New Methodology for Stuck Pipe
Prediction. https://doi.org/10.2118/164003-MS.

Chawla N, Bowyer K, Hall L, Kegelmeyer W. (2002). SMOTE: Synthetic Minority
Over-sampling Technique. 10.1613/jair.953.

Islam Al-Baiyat, SPE, and Lloyd Heinze, SPE, Texas Tech University (2012).
Implementing Artificial Neural Networks and Support Vector Machines in Stuck
Pipe Prediction. https://doi.org/10.2118/163370-MS.

Miss Lei Wang (2018). Advanced Multivariate Time Series Forecasting Models.
DOI:10.3844/jmssp.2018.253.260.

Murillo A, SPE, Neuman J, SPE, University of Houston, Robello S, SPE, Halliburton
(2009). Pipe Sticking Prediction and Avoidance Using Adaptative Fuzzy Logic and
Neural Network Modeling. https://doi.org/10.2118/120128-MS.

M.W. Biegler, Exxon Production Research Co., and G.R. Kuhn, Exxon Co. USA.
(1994). Advances in Prediction of Stuck” P“ipe Using Multivariate Statistical
Analysis. https://doi.org/10.2118/27529-MS.

Pedregosa F, Varoquaux G, Gramfor A, Michel V, Thirion B, Grisel O, Blondel M,
Prettenhofer P, Weiss R, Dubourg V, Vanderplas J, Passos A, Cournapeau D,
Brucher M, Perrot M, Duchesnay E;
https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html. 12(85):2825−2830,
2011.

Rohatgi A. WebPlotDigitizer (2021). https://automeris.io/WebPlotDigitizer. Version:
4.5
https://doi.org/10.2118/196229-MS
https://www.pycaret.org/
https://github.com/fchollet/keras
https://doi.org/10.2118/27529-MS
https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html
https://automeris.io/WebPlotDigitizer

Sadlier A, Baker Huges, Says I, Baker Huges, Hanson R, Verdance Technology
(2013). Automated Decision Support to Enhance While-Drilling Decision Making:
Where Does it fit Within Drilling Automation? https://doi.org/10.2118/163430-MS.

Salminen K, Cheatham C, Smith M, Valiullin K. (2017). Stuck-Pipe Prediction by Use
of Automated Real-Time Modeling and Data Analysis.
https://doi.org/10.2118/178888-PA.
Siruvuri, C., Nagarakanti, S., and R. Samuel. (2006). Stuck Pipe Prediction and
Avoidance: A Convolutional Neural Network Approach.
https://doi.org/10.2118/98378-MS.

Swets JA. (1988). Measuring the accuracy of diagnostic systems. Science.
10.1126/science.3287615. PMID: 3287615.

https://doi.org/10.2118/163430-MS
https://doi.org/10.2118/98378-MS

25402

Más contenidos de este tema