Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Predicción de series temporales con redes neuronales de tiempo diferido y recurrentes Sergio L. Martínez1, Enrique E. Tarifa1,2 (1) Facultad de Ingeniería. Universidad Nacional de Jujuy smartinez@imagine.com.ar & eetarifa@arnet.com.ar (2) CONICET eetarifa@arnet.com.ar RESUMEN: en este trabajo se estudia y compara el comportamiento de tres modelos de redes neuronales para efectuar la predicción de un paso adelantado de series temporales de datos provenientes de eventua- les sistemas físicos o procesos industriales. Los modelos propuestos son las redes neuronales feedforward clásicas, las redes con ventanas de retardo configuradas bajo un esquema de predictor tipo MA(q) (medias móviles) y las redes recurrentes configuradas como predictores AR(p) (autorregresivos). La estructura- ción con arquitecturas y parámetros similares de estos tres tipos de redes neuronales, ha permitido compa- rar sus desempeños para determinar cuál de los tipos de redes estudiadas presenta el mejor comportamien- to en el proceso de predicción. 1 INTRODUCCIÓN El proceso de predicción en series de datos, espe- cialmente las temporales, es un problema muy importante en todos los ámbitos que se utilicen; fundamentalmente, en todos aquellos campos tecnológicos o industriales, donde el comporta- miento anticipado de un equipo o proceso puede resultar de gran importancia para lograr el buen funcionamiento de los mismos. Los procesos de producción suelen disponer de sensores que ope- ran en tiempo real, produciendo continuamente datos que se registran y catalogan en series tem- porales. Estas series temporales reflejan el estado de funcionamiento del proceso supervisado, in- formación que puede ser aprovechada por un sis- tema de diagnóstico de fallas (Tarifa y Martínez, 2007a; Tarifa y Martínez, 2007b). Bajo tal esquema, la posibilidad de tener un co- nocimiento anticipado de cómo puede llegar a evolucionar un proceso, permitirá que el operador actúe de manera proactiva en lugar de simple- mente reaccionar frente a eventos ya consumados. De esta manera, se evitarán pérdidas de produc- ción, productos fuera de especificación, daños materiales o incluso daños personales. Si bien el proceso de predicción de datos no es nuevo, su práctica está basada clásicamente en métodos estadísticos que requieren un conoci- miento previo de la dinámica y condiciones del sistema para su aplicación (Box y Jenkins, 1976). Por su parte, las redes neuronales artificiales, con su capacidad de aprender y generalizar la infor- mación aprendida, pueden verse como un modelo de caja negra, capaces de asociar, clasificar y fun- damentalmente predecir datos, basándose en las relaciones implícitas de sus salidas respecto de sus entradas, relaciones que son descubiertas por sí mismas (Looney, 1997). Esta característica las convierte en poderosas herramientas para el pro- cesamiento de señales, motivo por el cual este trabajo estudia la capacidad de diferentes redes para predecir la evolución de una serie temporal de datos. 2 LAS REDES NEURONALES ARTIFICIALES Las redes neuronales artificiales (RNA), también conocidas por su sigla en inglés ANNs (Artificial Neural Networks), se pueden considerar como modelos matemáticos representativos de la acti- vidad cerebral, dotados de la capacidad de apren- der, “memorizar” y generalizar la información aprendida, bajo un esquema de elevada tolerancia al ruido. Su estructura básica consiste de unidades de procesamiento –las neuronas artificiales– con- figuradas como un modelo simplificado de las neuronas biológicas, interconectadas para ope- rar en forma paralela, y organizadas en estratos o capas. De acuerdo a la forma del agrupamien- to y al tipo de interconexión se obtienen dife- rentes arquitecturas de redes. Cada entrada de una neurona artificial es ponderada por un coe- ficiente –llamado peso–, de tal forma que sobre el conjunto de todos ellos se asienta el conoci- miento aprendido por la ANN. mailto:smartinez@imagine.com.ar mailto:eetarifa@arnet.com.ar mailto:eetarifa@arnet.com.ar Desde un punto de vista general se puede conside- rar que las ANNs se especializan en asociar patro- nes entrada–salida bajo diferentes condiciones, según sea su arquitectura, configuración de las neuronas y proceso de aprendizaje. Existen dife- rentes arquitecturas de estas redes, algunas de pro- pósito general y otras concebidas para aplicaciones específicas tales como el modelado y control de biorreactores (Aoyama y Venkatasubramanian, 1995), la extracción de características en procesos industriales (Jain y Vemuri, 1999), predicción de series de datos (Mandic y Chambers, 2001; Santa- na, 2006), o el diagnóstico de fallas en plantas químicas (Tarifa y Martínez, 2007a; Tarifa y Mar- tínez, 2007b). 3 MODELOS PREDICTIVOS ESTADÍSTICOS La complejidad de las series temporales determi- na el modelo de predicción a implementar, siendo los modelos estadísticos la opción tradicional para desarrollar el proceso predictivo. El principio de predicción de una señal de tiempo discreto se muestra en la Fig.1. El valor de una señal X(k) se puede predecir sobre la base de la suma pondera- da de muestras anteriores X(k-1), X(k-2), ... , X(k-p). La composición de esta muestras con coe- ficientes de ponderación ci (con i = 1, 2, ... , p), permite configurar un valor estimado de predic- ción X̂(k) tal que el error de predicción e(k) tiene la forma (Mandic y Chambers, 2001): p i i=1 ˆe(k) = X(k) - X(k) = X(k) - c .X(k-i) (1) . . . . . . X(k-p) X(k-p+1) k-p k-p+1 X(k-2) k-2 X(k-1) k-1 X(k) k Tiempo discreto p i i=1 c .X(k-i) Figura 1. Concepto básico de predicción lineal. Aunque la propuesta de predicción parece simple, la complejidad reside en la determinación de los coeficientes de ponderación ci. El cálculo de esos coeficientes se puede realizar por métodos esta- dísticos a través del planteo de un conjunto de ecuaciones lineales de Yule-Walker (Box y Jen- kins, 1976), o por medio de un estimador con aprendizaje secuencial adaptivo (Mandic y Chambers, 1999). Desde la estadística se desarrollaron metodolo- gías para ajustar series de tiempo basadas en mo- delos autorregresivos (AR), de medias móviles (MA) y las variantes combinadas ARMA y ARIMA; pero para que estos modelos se puedan aplicar correctamente, las series deben cumplir con las condiciones de estacionalidad e invertibi- lidad (Box y Jenkins, 1976). La ecuación (2) muestra la estructura genérica de un predictor ARMA(p,q): p q i j i=1 j=1 ŝ(k) = a s(k - i) b e(k - j) (2) donde ŝ(k) es la salida de predicción en el instan- te k, el primer término corresponde al submodelo tipo AR(p) autorregresivo (con i = 1, 2, … , p), y el segundo término, al submodelo MA(q) de me- dias móviles (Mandic y Chambers, 1999). 4 MODELOS PREDICTIVOS NEURONALES Las ANNs presentan como característica funda- mental la capacidad de aprender a partir de ejem- plos incorporados durante la etapa de aprendizaje, sin necesidad de tener conocimiento previo sobre los modelos y relaciones que subyacen sobre las eventuales series temporales que puedan procesar. Esta propiedad permite que se puedan calcular predicciones de cualquier serie temporal sin el re- querimiento de las condiciones estadísticas necesa- rias para los modelos ARMA (Pino et al, 2002). En este trabajo se analizan tres modelos de redes neuronales aplicados al proceso de predicción de series temporales: la red feedforward clásica (FF), la red feedforward con ventanas de retardo (FF– TD) y la red recurrente o retro-alimentada (FFR). 4.1 Series temporales Para la experimentación y análisis del comporta- miento de los modelos predictivos considerados, se utilizaron series temporales simuladas a partir de un proceso ficticio que proporciona una se- cuencia de datos representativade su estado de funcionamiento a través de la medición de una única variable X. Este sistema fue presentado por Tarifa y Martínez (2007a, 2007b) como parte del desarrollo de un sistema de diagnóstico de fallas. En tal sistema se analiza la evolución de la varia- ble X con el fin de determinar si el estado del proceso supervisado es normal o defectuoso. El proceso ficticio en consideración puede ser afec- tado por las fallas f1, f2, f3 y f4. La Fig.2 presen- ta la evolución que la variable X tiene para cada una de las fallas potenciales, cuando éstas se pro- ducen a los 48 s de iniciado el proceso. La com- plejidad del estudio reside en que ciertos tramos de algunos pares de secuencias (por ejemplo f1 y f2 al principio, o f2 y f3 al final) contienen valo- res coincidentes, condición que puede ocurrir en equipos o procesos de cierta complejidad. Esto genera un inconveniente crítico para los sistemas de diagnóstico ya que, durante el proceso de mo- nitoreo, deben resolver rápidamente la ambigüe- dad para determinar a cuál tipo de falla corres- ponde la secuencia. Por los mismos motivos, el proceso ficticio descripto constituye también un desafío para el sistema de predicción objeto del presente trabajo. 0 20 40 60 80 100 120 140 160 0 50 100 150 200 250 t (s) X ( °C ) f1 f2 f3 f4 Figura 2. Trayectorias de las secuencias de fallas f1, f2, f3 y f4, muestreadas a t = 8 s. Como es lógico suponer, una misma falla en un sistema puede presentarse con diferentes grados de severidad, lo que daría lugar a una familia de tra- yectorias caracterizadas por la magnitud de la falla (M) y su tiempo de desarrollo (td). El conjunto integrado por todas las trayectorias posibles para una falla se denomina flujo. La Fig.3 presenta al- gunas de las trayectorias que pertenecen al flujo de la falla f2. Este flujo fue seleccionado para estudiar la predicción debido a que sus trayecto- rias involucran un cambio de pendiente con valo- res positivos y negativos. Tanto M como td se expresan en porcentaje con respecto a un valor máximo adoptado para su definición (Tarifa y Martínez, 2007b). 0 5 10 15 20 25 -80 -60 -40 -20 0 20 40 60 FALLA F2 Familia de curvas Magnitud 100% Tiempo de desarrollo 100% Magnitud 25% Tiempo de desarrollo 0% cantidad de muestras X Figura 3. Trayectorias del flujo de la falla f2, to- mando 25 muestras por trayectoria. Del grupo de trayectorias de f2, se han seleccio- nado algunas para servir como conjunto de entre- namiento, reservándose el resto como conjunto de comprobación (ver Tabla 1). 0 50 100 150 200 250 300 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 FALLA F2 Conjunto de entrenamiento normalizado cantidad de muestras Xn Figura 4. Conjunto de entrenamiento. Series de falla f2 normalizadas y concatenadas. Tanto para el conjunto de entrenamiento como para el de comprobación, las series se han norma- lizado para ajustarse al intervalo [-1,+1] y se con- catenaron en una serie general de 275 muestras como se observa en la Fig.4. Tabla 1. Organización de los conjuntos de entre- namiento y comprobación para las ANNs. Conj. entrenamiento Conj. comprobación # M % td % # M % td % 1 0 normal 1 0 normal 2 25 25 2 25 0 3 25 75 3 25 50 4 50 0 4 25 100 5 50 50 5 50 25 6 50 100 6 50 75 7 75 25 7 75 0 8 75 75 8 75 50 9 100 0 9 75 100 10 100 50 10 100 25 11 100 100 11 100 75 4.2 ANN feedforward clásica (FF) Es el típico modelo de red neuronal utilizado para procesos generales de asociación de patrones. Si bien carece de los complementos necesarios para efectuar un eficiente proceso de predicción, ha sido introducida a modo de referencia, dado que es capaz de comportarse como un competente asociador de patrones entrada–salida. La arquitectura de la ANN se ha definido en base a los datos a procesar y bajo el criterio de utilizar una estructura mínima aceptable (Fig.5). De acuerdo al Teorema Universal de Aproximación de Funciones (Haykin, 1998), una sola capa oculta es suficiente para una aproximación uniforme da- do un conjunto de entrenamiento. La dimensiona- lidad de los datos de entrada y salida determina la cantidad de neuronas de las respectivas capas de entrada y salida; por ser una serie unidimensional se utiliza una neurona (ficticia) a la entrada y una a la salida. La definición de la cantidad de neuronas ocultas fue establecida experimentalmente en diez unida- des, bajo el criterio de que una cantidad insufi- ciente de unidades ocultas no proporciona las co- nexiones sinápticas necesarias para aproximar las trayectorias propuestas, produciendo un elevado error cuadrático medio; por el contrario, una can- tidad elevada de unidades ocultas aproximará bien los patrones de entrenamiento, pero tenderá a memorizar los datos de entrada disminuyendo la capacidad de generalización de la red (Jain y Martin, 1998). f g f g f g f g f g X(k) X(k+1) bj bk wji wkj Figura 5. Arquitectura ANN feedforward clásica utilizada en el proceso de predicción. La función de net f para cada neurona está defini- da bajo un esquema clásico por la composición ponderada de las señales de entrada a cada unidad de procesamiento: N j ji i j i=1 = w x - bf (3) donde xi es la salida de la neurona i de la capa anterior formada por N neuronas, wji es el peso de la conexión entre la neurona actual j y la que pro- porciona la señal i, y bj es el peso de ajuste (bias) de la neurona j. La salida xj de cada neurona, tanto de la capa in- terna como de salida, queda definida por la fun- ción de activación correspondiente (g); en este trabajo se adoptó la sigmoide bivaluada (Ecua- ción (4)) ya que es una función densa para el pro- cesamiento interno y apropiada para representar los valores de predicción definidos en el intervalo [–1,+1] de las series normalizadas: j j -2 2 g( ) 1 1 e f f (4) 4.3 ANN con ventanas de retardo (FF–TD) Para incrementar la información enviada a la ANN, se amplió la arquitectura descripta en la sección anterior incorporando dos entradas adi- cionales. Estas nuevas entradas se obtienen de conservar mediante retardos temporales los dos últimos valores observados de X; es decir, se construyó una red con una ventana temporal de dos muestras (Fig.6). z-1 z-1 X(k) f g f g f g f g f g bj bk X(k+1) wji wkj X(k-1) X(k-2) Figura 6. Arquitectura ANN feedforward con dos ventanas de retardo. Los retardos en esta figura están representados por los bloques cuadrados identificados con la variable transformada z–1, notación tomada –en forma signi- ficativa– del campo de procesamiento de señales. Este modelo es el equivalente neuronal no lineal de un predictor MA(2) (Moving Average) obteni- do por simplificación del modelo genérico de la ecuación (2). 4.4 ANN recurrente Las ANNs recurrentes se forman con la realimen- tación de estados anteriores de la red hacia la en- trada. Al tener una retroalimentación, la informa- ción que recibe la ANN combina el estado pre- sente y la historia total del proceso; esto le da una gran ventaja sobre la arquitectura feedforward clásica y la arquitectura con ventanas debido a que esas arquitecturas sólo ven una porción de la historia del proceso. z -2 X(k) f g f g f g f g f g bj bk X(k+1) wji wkj X(k-1) Figura 7. Arquitectura ANN recurrente con con- figuración tipo Jordan. Para los modelos recurrentes, existen dos estruc- turas clásicas, la configuración Elman con retro- alimentaciones de la capa oculta hacia la capa de entrada, y la configuración de Jordan que reali- menta las salidas hacia la entrada (Mandic y Chambers, 2001). Para este estudio, se ha optado por la segunda configuración recurrente (Fig.7) por considerar que en la salida se resume la histo-ria pasada del proceso en ejecución. Tarifa y Mar- tínez (2007a, 2007b) demuestran que esa estruc- tura es la más conveniente para desarrollar un sistema de diagnóstico. En este caso, el modelo es el equivalente neuronal no lineal de un predictor AR(2) (Auto Regressi- ve) obtenido por simplificación del modelo gené- rico de la ecuación (2) con dos retardos de reali- mentación. 5 PRUEBAS EXPERIMENTALES Las pruebas realizadas para apoyar experimen- talmente este trabajo se efectuaron sobre las tres redes neuronales descritas en los apartados ante- riores, manteniendo las estructuras mostradas en las Fig.5, Fig.6 y Fig.7. Para poder comparar los resultados, se aplicaron sobre estas redes básica- mente las mismas condiciones: Un conjunto de datos de entrenamiento consti- tuido por una secuencia de 275 muestras formada por la concatenación de 11 trayectorias correspon- dientes a la falla f2 (Tabla 1 y Fig.4). Un conjunto de datos de comprobación consti- tuido por una secuencia de 275 muestras formada por la concatenación de 10 trayectorias –diferentes a las anteriores– correspondientes a la falla f2, más una secuencia de 25 muestras correspondiente al estado normal del sistema. Debido a que la evolución del error cuadrático medio (MSE) en el proceso de aprendizaje de las ANNs es dependiente del conjunto de pesos ini- ciales (Urbani, 1994), los tres modelos de redes se han inicializado con pesos aleatorios y entrenado 25 veces, de las cuales se seleccionó aquella que produjo el menor error de aprendizaje para cada modelo. En todos los casos se han aplicado 1000 itera- ciones. Para cada modelo de ANN representativo de su clase, y ya en la fase operativa, se ha calculado el MSE global del conjunto de entrenamiento y de comprobación: N 2 GLOBAL Di Ci i=1 1 MSE (X - X ) N (5) siendo XDi el i-ésimo valor de la serie original, XCi el i-ésimo valor calculado de la serie estimada por predicción y N la cantidad de muestras de la secuencia de entrada (Tabla 2). Para cada modelo de ANN en su fase operati- va se ha calculado el MSE individual por mues- tra, para los conjuntos de entrenamiento y com- probación: 2 i Di Ci 1 MSE (X - X ) 2 (6) luego, de la serie obtenida, se explicita el error máximo individual (Tabla 2). Para cada modelo de ANN, en su fase operati- va, se ha computado la cantidad de muestras cal- culadas incorrectamente (SXERROR), con el criterio de que una muestra es errónea si difiere en ±5% del valor correcto. Este margen se ha establecido considerando que es representativo de un nivel de ruido normal en una secuencia de datos de prove- nientes de sensores en un sistema industrial típico (Tabla 2): Dj Cj j Dj B ERROR j j=1 X - X 1 si 0,05 S X 0 en otro caso SX S (7) donde Sj es la calificación de la muestra, SXERROR es la contabilización de muestras incorrectas y B es cantidad total de muestras. 5.1 Desempeño de la ANN feedforward clásica (FF) Como esta ANN carece de toda información his- tórica, ya sea por retardo temporal o por retro- alimentación, su desempeño no es muy bueno. Sus posibilidades de predicción están sustentadas solamente por el conocimiento dinámico del sis- tema capturado en el proceso de aprendizaje y contenido en los pesos del sistema. El error cua- drático medio, tanto para el conjunto de entrena- miento como para el de comprobación es relati- vamente elevado (Tabla 2). 5.2 Desempeño de la ANN feedforward con ven- tanas de retardo (FF-TD) En este caso, la red incorpora un conocimiento histórico de la señal de entrada basado en dos muestras anteriores, bajo un esquema de media móvil MA(2) (Mandic y Chambers, 2001). Pese a que el error cuadrático medio (MSE) –respecto del modelo FF– ha mejorado con los datos de entrenamiento, aún es relativamente elevado con los datos de comprobación. De todas formas, la cantidad de muestras generadas correctamente ha aumentado sustancialmente. Una posible mejora de este modelo se puede lograr aumentando la cantidad de ventanas de retardo. 5.3 Desempeño de la ANN recurrente (FFR) Este modelo de ANN ha mostrado un excelente desempeño de predicción debido a la incorpora- ción de un lazo de realimentación de la salida a la entrada. Con este tipo de conexión, se incorpora a la red una memoria a corto plazo bajo un esque- ma autorregresivo AR(2) que captura apropiada- mente la dinámica del sistema (Mandic y Cham- bers, 2001). Los bajos niveles de error producidos en todas las categorías computadas, especialmente respecto de la cantidad de muestras incorrectas (Tabla 2), demuestra que esta estructura es muy conveniente para la predicción de datos en series de tiempos. Tabla 2. Errores producidos por los tres sistemas de ANNs para los conjuntos de entrenamiento y comprobación. Modelo MSEGlobal MSEi SXERROR Conjunto de entrenamiento FF 6,541x10–3 2,237x10–1 218 FF-TD 1,036x10–4 2,400x10–3 102 FFR 9,592x10–10 1,897x10–8 24 Conjunto de comprobación FF 3,568x10–2 1,537 225 FF-TD 6,667x10–2 1,470 140 FFR 2,658x10–8 2,726x10–6 26 6 CONCLUSIONES En este trabajo, se han evaluado tres modelos de ANNs para experimentar en el proceso de predic- ción de series temporales en un paso hacia delan- te: la red feedforward clásica (FF), la red feed- forward esquema MA(2) con ventanas de retardo y la red recurrente esquema AR(2). Las experiencias realizadas, para las que se man- tuvieron arquitecturas y parámetros similares de los modelos de ANNS bajo estudio, han mostrado que el tercer modelo de red de tipo Jordan– recurrente con la realimentación de un estado precedente en dos tiempos hacia atrás de la salida, tiene un excelente comportamiento en el proceso de predicción, tanto para los datos de entrena- miento como para datos no conocidos (conjunto de comprobación). El desafío en esta línea de investigación queda planteado para aumentar la cantidad de estados futuros de predicción, a los fines de obtener una idea bastante anticipada del comportamiento futu- ro de un sistema bajo estudio. 7 REFERENCIAS Aoyama A. & V. Venkatasubramanian, Internal Model Control Framework Using Neural Net- works for the Modeling and Control of a Biore- actor, Engineering Applications of Artificial In- telligence, 8, 689-701, 1995. Box, G. E. & G. M. Jenkins, Time Series Analy- sis: Forecasting and Control, Holden-Day, San Francisco, 1976. Haykin S., Neural Networks – A Comprehensive Foundation. Prentice-Hall, Ontario, Canada, 1998. Jain L.C. & N.M. Martin, Fusion of Neural Net- works, Fuzzy Systems and Genetic Algorithms: Industrial Applications, CRC Press LLC, New York, 1998. Jain, L.C. & V. R. Vemuri, Industrial Applica- tions of Neural Networks, CRC Press LLC, New York, 1999. Looney C.G., Pattern Recognition Using Neural Networks: Theory and Algorithms for Engineers and Scientists, Oxford University Press, New York, 1997. Mandic D. P. & J. A. Chambers, A Nonlinear Adaptive Predictor Realised via Recurrent Neu- ral Networks with Annealing, Digest of the IEE Colloquium – Statistical Signal Processing, London, UK, 2/1-2/6, 1999. Mandic D. P. & J. A. Chambers, Recurrent Neu- ral Networks for Prediction, John Wiley and Sons Ltd., USA, 2001. Pino, R. & De La Fuente D. & Parreño J. & Prio- re P., Aplicación de las Redes Neuronales Arti- ficiales a la Previsión de Series Temporales No Estacionarias o No Invertibles, QÜESTIIÓ, 26(3), 1-19, 2002. Santana J.C., Predicción de series temporales con redes neuronales: una aplicación a la inflación colombiana, Revista Colombiana de Estadísti- ca, 29(1), 77-92, 2006. Tarifa E.E. & S.L. Martínez, Diagnóstico de fa- llas con redes neuronales. Parte 1: Reconoci- miento de trayectorias, Revista Ingeniería e In- vestigación, 27(1), 68-76, 2007a. Tarifa E.E., Martínez S.L., Diagnósticode fallas con redes neuronales. Parte II: Reconocimiento de flujos, Revista Ingeniería e Investigación, 27(2), 65-71, 2007b. Urbani D., P. Roussel-Ragot, L. Personnaz & G. Dreyfuz, The Selection of Neural Models of Non-Linear Dynamical Systems by Statistical Test, IEEE-Neural Networks for Signal Pro- cessing, IV, 229-237, 1994.
Compartir