Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad Nacional Autónoma de México Programa de Posgrado en Ciencias de la Administración F a c u l t a d d e C o n t a d u r í a y A d m i n i s t r a c i ó n F a c u l t a d d e Q u í m i c a I n s t i t u t o d e I n v e s t i g a c i o n e s S o c i a l e s I n s t i t u t o d e I n v e s t i g a c i o n e s J u r í d i c a s T e s i s Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer. Que para obtener el grado de: Maestro en Finanzas Presenta: Iván Cruz Torres T u t o r : M. en F. Arturo Morales Castro México, D.F. 2007 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Agradecimientos A mis Padres: Martha y Raymundo por todo su apoyo. Al Mtro. Arturo Morales Castro por su ayuda, consejos, interés, paciencia y sobre todo por su propuesta para el desarrollo de la tesis, ya que sin su colaboración, este trabajo no habría sido posible. Gracias. A la Universidad Nacional Autónoma de México y a la Facultad de Contaduría y Administración, por abrirme sus puertas y dejarme ser parte de ellos. A Janett, por su apoyo y comprensión durante el desarrollo de esta tesis, hemos pasado muy buenos momentos juntos. A todos los que directa o indirectamente hayan hecho posible que otro de mis sueños se haya hecho realidad. El problema real no es si las máquinas piensan, sino si los hombres lo hacen. B. F. Skinner, Contingencies of reinforcement, 1969. Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer Índice Índice ……………………………………………………………………………………………. i Índice de tablas y figuras …………………………………………..……………….…….….. v Resumen ………………………………………………………………………………..……... vi Introducción …………………………………………………………......……………………. vii a. Planteamiento del problema ................................................................................. vii b. Hipótesis …………………………………………………………….……….…...……. viii c. Objetivos ……………………………………………………..…………………………. ix c.1 Objetivo general ………………………………………………………...………… ix c.2 Objetivos específicos ……………………………………………….…….…..….. ix d. Justificación …………………………………………………………………………….. ix e. Tipo de investigación ……………………………………………….……….…..…...… x f. Breve contenido de la tesis ……………………………………………………......…… x Parte I. Marco Teórico. Series de tiempo y redes neuronales …………………………… 1 Capítulo 1. Series de tiempo …………………………..…………………………………….. 2 1.1 Generalidades ………………………………………………………………..…....….. 2 1.2 Algunos conceptos de las series de tiempo …………………………..………..….. 4 1.2.1 Proceso estocástico ……………………………………….…………..……….. 4 1.2.2 Proceso estacionario ...………………………………………………..…….….. 4 1.2.3 Proceso puramente aleatorio ………………………………………...…….….. 4 1.2.4 Caminata aleatoria ……………………………………….………..………..….. 4 1.2.5 Procesos estocásticos integrados …………………………………………….. 5 1.2.6 Prueba de raíz unitaria ……………………………………….………..…...….. 5 1.3 Modelos ARIMA ……………………………………….…………………………..….. 6 1.3.1 Proceso autorregresivo (AR) …………………………………………..…..….. 6 1.3.2 Proceso de media móvil (MA) ………………………………………...……….. 6 1.3.3 Proceso autorregresivo y de media móvil (ARMA) …………………….....… 7 1.4 Caracterización de las series de tiempo: función de autocorrelación …….…..… 7 1.4.1 Función de autocorrelación …………………………………………………..... 7 1.4.2 Función de autocorrelación parcial …………………………..…………..…… 8 1.5 Propiedades de las series de tiempo financieras ………………………….....…… 9 1.5.1 Hipótesis de los mercados eficientes …………………………………..…..… 9 1.6 Datos usados en la predicción de series de tiempo financieras ….……………. 10 1.6.1 Datos técnicos. ……………………………………………………………..….. 10 i Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 1.6.2 Datos fundamentales …………………………………………………..….….. 11 1.7 Suavizamiento de series de tiempo ……………………………………………….. 13 1.8 Métodos clásicos para el tratamiento de series de tiempo financieras ………... 14 Capítulo 2. Redes neuronales ………………………………………………………….….. 16 2.1 Generalidades ……………………………….……………………………….…….... 16 2.2 Teoría y operación ………………………………………….…………………...….. 17 2.3 Modelo General de una Neurona Artificial ……………………..………………… 18 2.4 Neurodinámica ……………………………………….…………………………….... 20 2.4.1 Entradas …………………………………………………………………….….. 20 2.4.2 Salidas …………………………………………………………………..…..….. 20 2.4.3 Regla de propagación …………………………………………………….…... 21 2.4.4 Función de activación o función de transferencia ……….…………………. 22 2.4.5 Función de salida ……………………………………………….………….….. 23 2.5 Modelo estándar de una neurona artificial …………………………….………..… 24 2.5.1 Neuronas todo-nada ……………………………………….……………...….. 25 2.5.2 Neurona continua sigmoidea ………………………………………….….….. 25 2.6 Arquitecturas de redes neuronales ………………………………………….…….. 26 2.6.1 Redes Neuronales de dos capas …………………………………….….….. 27 2.6.2 Redes Neuronales multicapa .………………………………………...….….. 29 2.6.3 Una definición formal de red neuronal …………………………….………... 32 2.6.4 Actualización del estado de las neuronas ………………………………..…. 33 2.7 Modos de operación de una red neuronal …………………………………….….. 34 2.7.1 Modo de aprendizaje ………………………………………………………….. 34 2.7.1.1 Aprendizaje supervisado ………………………………………….…..… 36 2.7.1.2 Aprendizaje no supervisado …………………..………………….…….. 36 2.7.1.3 Aprendizaje híbrido ……………………………………………………… 37 2.7.1.4 Aprendizaje reforzado ………………………………………….……..… 37 2.7.2 Algoritmo de retropropagación …………………………………….…………. 37 2.7.3 Fase de recuerdo o ejecución ……………………………………….….….… 39 2.8 Clasificación de los modelos neuronales …………………………..….………….. 40 2.9 Desarrollo de un modelo RNA …………………………………………...………… 41 2.9.1 Selección del algoritmo de aprendizaje ………………………………...…… 41 2.9.2 Selección de las funciones de error y transferencia ………………….……. 42 2.9.2.1 Funciones de error ……………………………………………….…..….. 42 2.9.2.2 Funciones de transferencia ……………………………………….……. 42 2.9.3 Aspectos importantes en la predicción con RNA ……………….………….. 44 Capítulo 3. Redes neuronales aplicadas a las series de tiempo financieras …………. 46 3.1 Generalidades ……………………………………………………………...….…….. 46 3.2 Sistemas tradicionales …………………………………………….…………….….. 47 3.3 RNA como modelo no lineal …………………………………………………….….. 48 3.4 Modelos paramétricos y no paramétricos …………………………………………49 ii Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 3.5 Modelos auto regresivos no lineales …………………………………………….… 49 3.6 Modelos de promedio móvil …………………………………………….………….. 51 3.7 Algunas aplicaciones de redes neuronales a las series de tiempo …….……… 53 Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la metodología ARIMA ...………………………………………………………………………………………. 55 Capítulo 4. Metodología para pronósticos mediante modelos ARIMA y RNA ……...… 56 4.1 Metodología para pronósticos mediante modelos ARIMA ……………..……….. 56 4.1.1 Análisis exploratorio de la serie ………………………………………....…… 56 4.1.2 Identificación del modelo ……………………………………...……...…….… 56 4.1.3 Estimación de parámetros ……………………………………………….…… 56 4.1.4 Verificación de diagnóstico ………………………………….…………...…… 57 4.1.5 Pronóstico ………………………………….……………….…………......…… 57 4.2 Metodología para predicción mediante RNA …………………………………..…. 57 4.2.1 Selección de variables ……………………………….…...………………..… 57 4.2.2 Recolección de datos ………………………………………………….……… 58 4.2.3 Pre procesamiento de datos ………………………………….…....………… 58 4.2.4 Conjuntos de entrenamiento y prueba ……………………….……………… 59 4.2.5 Parámetros de las RNA .……….…………………………………...………… 59 4.2.5.1 Número de capas ocultas ………………...…………………………….. 59 4.2.5.2 Número de neuronas ocultas ……………………………………….….. 60 4.2.5.3 Número de neuronas de salida ……………………………………..….. 61 4.2.5.4 Función de transferencia ……………………………………………….. 61 4.2.6 Criterio de evaluación ………………………….……………………………… 61 4.2.7 Entrenamiento de la red …………………………….………………………… 61 4.2.7.1 Número de iteraciones de entrenamiento ……………………….……. 61 4.2.7.2 Tasa de aprendizaje y momento ………………………………………. 62 4.2.8 Implementación .……………………………………………………………..… 63 Capítulo 5. Desarrollo y análisis de resultados ………………………………...………… 64 5.1 Datos …………………………………………………………………………..……… 64 5.2 Obtención del modelo ARIMA para la serie MexDer Cete Dc08 ………….…… 64 5.2.1 Análisis exploratorio de la serie ……………………………………………… 65 5.2.2 Identificación del modelo ……………………………………………………… 66 5.2.2.1 Selección del conjunto de estimación …….............................………. 66 5.2.2.2 Estudio de la estacionariedad …….....................…….............………. 66 5.2.2.3 Determinación de la función de auto correlación y la función de auto... correlación parcial de la serie estacionaria ….....……............………. 68 5.2.2.4 Determinación del componente autorregresivo p y promedio móvil q 69 5.2.2.5 Especificación del modelo ARIMA identificado ……...............………. 70 5.2.3 Estimación de parámetros ……......................................................………. 70 5.2.4 Verificación de diagnóstico …….....................................................………. 70 iii Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 5.2.4.1 Contraste de validez del modelo ……....................................………. 72 5.2.5 Pronóstico ……...............................................................................………. 73 5.3 Obtención del modelo RNA para la serie MexDer Cete Dc08 …..……………… 74 5.3.1 Selección de variables …………………………………………………..……. 74 5.3.2 Recolección de datos …………………………………………………….…… 75 5.3.3 Pre-procesamiento de datos ………………………………….……………… 76 5.3.4 Conjuntos de entrenamiento y prueba …………………………..………….. 76 5.3.5 Parámetros de la RNA ……………..……………………………….………… 77 5.3.5.1 Número de capas ocultas ……….…………………..………………….. 77 5.3.5.2 Número de neuronas en la capa oculta …………………….…………. 77 5.3.5.3 Número de neuronas de salida ………………………………………… 78 5.3.5.4 Función de transferencia ……………….…………...………………….. 78 5.3.6 Criterio de evaluación …………………………………………………………. 78 5.3.7 Entrenamiento de la red ………………………………………………………. 78 5.3.7.1 Número de iteraciones de entrenamiento …………………………….. 79 5.3.7.2 Tasa de aprendizaje y momento …………………...………………….. 79 5.3.8 Implementación ………………………………………………...……………… 80 5.4 Resultados obtenidos ………………………………………..……………………… 81 5.4.1 Resultados obtenidos por medio del modelo ARIMA ………..……………. 81 5.4.2 Resultados obtenidos por medio del modelo RNA ..…………………...….. 82 5.4.3 Características de las series pronosticadas por ARIMA y RNA ………….. 83 5.5 Pruebas de hipótesis ……………………………………………………..…………. 85 5.5.1 Descripción de variables …………………………………………..………….. 86 5.5.2 Pruebas de hipótesis específicas de los modelos dentro de muestra …... 86 5.5.2.1 Coeficiente de determinación …………………………..………………. 86 5.5.2.2 Criterio de información de Akaike ……………………………………… 87 5.5.2.3 Criterio de información de Schwarz ……………………………….…... 88 5.5.3 Pruebas de hipótesis específicas de los modelos fuera de muestra …….. 89 5.5.3.1 Raíz del Error Cuadrático Medio ………………………………………. 89 5.5.3.2 Error Medio Absoluto Porcentual ………………………………………. 89 5.5.3.3 Coeficiente de desigualdad de Theil …………………………………... 90 Capítulo 6. Conclusiones y propuestas para futuras investigaciones …………….…… 92 Capítulo 7. Referencias ……………………………………………………………...……… 94 Apéndices ……………………………………………………………………….…..……… 102 Apéndice A Equivalencias entre la literatura estadística y la literatura RNA ……….. 102 Apéndice B Datos de cierre del futuro del Cete CT91D-dc08 en el MexDer ……..… 103 iv Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer Índice de tablas y figuras ……………………………………………………...……………… v Tabla 1.1 Patrones teóricos de FAC y FACP ..……..…….. ……………………………… 8 Tabla 2.1 Aspectos generales del trabajo con RNA en predicciones ………….……… 44 Tabla 5.1 Pesos entre la capa de entrada y la capa oculta de la RNA estimada ….… 80 Tabla 5.2 Pesos entre la capa oculta y la capa de salida de la RNA estimada ……… 81 Tabla 5.3 Características de la series pronosticadas del Cete en el MexDer …….…. 85 Tabla 5.4 Características de la series pronosticadas del Cete, primeros 60 días ..…. 85 Figura 2.1 Modelo de una neurona artificial .….……………………………..……...…… 19 Figura 2.2 Funciones de activación comunes …………………………………….…...… 23 Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica …….…… 26 Figura 2.4 Red neuronal de dos capas ……………………………………………...…… 29 Figura 2.5 Red neuronal multicapa …………………………………………………….…. 30 Figura 2.6 Ejemplo para demostrar las ventajas de las capas ocultas …………….…. 31 Figura 2.7 Efecto del sobreentrenamiento …………………………………………….…. 35 Figura 2.8 Clasificación de modelos de RNA por tipo de aprendizaje y arquitectura .. 41 Figura 2.9 Comparación de las funciones de transferencia sigmoidea …………….… 43 Figura 2.10 Esquema de trabajo con RNA ………………………….…………………… 45 Figura 3.1 Red neuronal unidireccional como modelo AR no lineal ………………..…. 51 Figura 3.2 Red neuronal conformando un modelo ARMA no lineal …….…………….. 52 Figura 4.1 Gráficas del comportamiento de los errores en una RNA ……………..….. 62 Figura 5.1 Gráfica del Cete 91d, Dc08 en el MexDer …………………………...……… 65 Figura 5.2 Gráficade la serie del rendimiento logarítmico (RCT) ………………...…… 66 Figura 5.3 Correlograma de la serie del futuro del Cete suavizada, en niveles …...… 68 Figura 5.4 Correlograma de la serie RCT ………………………………………….…….. 69 Figura 5.5 Correlograma de los residuos del modelo ARIMA estimado …....………… 72 Figura 5.6 Pronóstico realizado mediante el modelo ARIMA sobre la serie RCT …… 74 Figura 5.7 Arquitectura de la RNA que proporciona los mejores resultados …………. 80 Figura 5.8 Pronóstico realizado mediante el modelo RNA sobre la serie RCT …….... 81 Figura 5.9 Pronóstico realizado mediante el modelo ARIMA en niveles ………….….. 82 Figura 5.10 Pronóstico realizado mediante el modelo RNA en niveles ……………..... 83 Figura 5.11 Comparación entre ajustes mediante ARIMA y RNA, en niveles ……...... 84 Figura 5.12 Comparación entre pronósticos mediante ARIMA y RNA, en niveles ...... 84 v Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer Resumen El objetivo de esta tesis es proponer un modelo que permita pronosticar la tendencia de la serie del futuro del Cete de 91 días en el MexDer con vencimiento en diciembre de 2008, aplicando redes neuronales y series de tiempo, y comparar los pronósticos obtenidos de esta forma con los que se obtendrían con un modelo ARIMA tradicional, con el fin de conocer que modelo ajusta mejor los datos dentro de muestra y que modelo pronostica mejor los datos fuera de muestra. La principal aportación es demostrar que el modelo propuesto basado en redes neuronales es capaz de obtener buenas aproximaciones tanto en el ajuste como en el pronóstico, además de observar que, en este caso en particular, la aproximación resulta mejor que la generada por medio de la metodología ARIMA. Así también, la tesis contiene una propuesta metodológica para la aplicación de las redes neuronales a las series de tiempo financieras. Este trabajo se divide en dos partes: Parte I, Marco teórico. Series de tiempo y redes neuronales, en donde se establecen las bases teóricas para el desarrollo de la tesis. Parte II. Desarrollo y aplicación del modelo propuesto y, comparación con la metodología ARIMA, en la cual se muestran las hipótesis de la investigación, su desarrollo y los resultados obtenidos, a partir de los cuales se presentan las conclusiones y algunas propuestas para futuras investigaciones. vi Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer Introducción La importancia de saber el comportamiento de determinado activo financiero o instrumento derivado en un futuro permite tomar previsiones para evitar tomar riesgos innecesarios o tener la oportunidad de obtener mayores beneficios que la mayoría de las personas no puede aprovechar. Las técnicas de pronóstico de series de tiempo por los métodos estadísticos tradicionales permiten llevar a cabo esta labor como, por ejemplo, por medio de la metodología Box-Jenkins, la cual permite obtener buenas aproximaciones en el caso de que dicho método sea bien aplicado, ya que ésta metodología tiene una parte de arte en el sentido de que el proceso es iterativo hasta alcanzar el mejor modelo de acuerdo a la experiencia del investigador. Existen en general dos grupos de modelos propuestos para pronosticar series de tiempo aplicadas a las finanzas, por un lado, los modelos estadísticos tradicionales como los modelos ARIMA, los modelos GARCH y los mixtos, y por otro, los modelos basados en áreas nuevas como la inteligencia artificial, las redes neuronales y los algoritmos genéticos. Mediante el uso de redes neuronales artificiales es posible realizar predicciones sobre el comportamiento de series financieras, en este caso, para pronosticar la tendencia del futuro del Cete de 91 días en el MexDer. De acuerdo a la mayor parte de la literatura existente, se espera un mejor desempeño de las RNA en comparación con un modelo ARIMA utilizado como referencia, ya que las redes neuronales son capaces de identificar relaciones no lineales, las cuales, como se ha demostrado en algunos estudios, existen en los mercados financieros. Resulta muy recomendable también, saber cuáles son las virtudes de cada una de las técnicas disponibles, por lo que en este trabajo se presentan las fortalezas y debilidades del modelo que emplea RNA como instrumento de predicción aplicado a series de tiempo financieras. a. Planteamiento del problema La predicción de series de tiempo financieras ha adquirido gran atención dentro de las investigaciones empíricas, tanto que los econometristas han empezado a dedicar mayores esfuerzos a este tipo de información, tal y como se demuestra con el número de artículos publicados en la materia. Una de las técnicas estadísticas tradicionales empleadas frecuentemente en el pronóstico de series de tiempo es la metodología Box-Jenkins, la cual permite obtener vii Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer buenas aproximaciones cuando se aplica a series de tiempo estacionarias o que pueden convertirse en estacionarias mediante la transformación o transformaciones adecuadas. Hasta ahora no se tiene conocimiento de la aplicación de un modelo similar al mercado mexicano de derivados desde un enfoque de series de tiempo, las propuestas en trabajos de tesis se han enfocado al aprendizaje de las redes utilizando las variables de entrada con las cuales se calcularía el valor de una opción, por ejemplo, por medio de la fórmula Black y Scholes (Pérez, 1998), por lo que esta tesis pretende determinar la factibilidad de emplear redes neuronales en la predicción de la serie del futuro del Cete en el MexDer. La pregunta general es: ¿Es posible generar un modelo basado en redes neuronales capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como referencia? A partir de la cual se plantean las siguientes preguntas específicas: - ¿El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia? - ¿El modelo propuesto basado en redes neuronales pronostica mejor los datos fuera de muestra que el modelo ARIMA usado como referencia? b. Hipótesis Hipótesis general: Un modelo basado en redes neuronales es capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como también mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como referencia. A partir de la cual se plantean las siguientes hipótesis específicas: - El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia. - El modelo propuesto basado en redes neuronales pronostica mejor los datos fuera de muestra que el modelo ARIMA usado como referencia. viii Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer c. Objetivos c.1 Objetivo general: Desarrollar un modelo basado en redes neuronales capaz de ajustar y predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como también realizar un análisis comparativo con un modelo ARIMA utilizado como referencia para determinar que modelo proporciona los mejores resultados. c.2 Objetivos específicos: - Determinar si el modelo propuesto basadoen redes neuronales ajusta mejor los datos dentro de muestra que el modelo ARIMA usado como referencia por medio de criterios estadísticos. - Determinar si el modelo propuesto basado en redes neuronales pronostica mejor los datos fuera de muestra que el modelo ARIMA usado como referencia por medio de criterios estadísticos. d. Justificación La intención de esta tesis es mostrar la capacidad de las RNA de realizar pronósticos en series de tiempo financieras, en particular sobre la serie del futuro del Cete en el MexDer, como una herramienta alterna a las técnicas estadísticas tradicionales como la metodología ARIMA, además de explicar de manera clara y sencilla -pero sin perder de vista la rigurosidad matemática que involucran este tipo de temas-, el funcionamiento de una RNA. El estudio propuesto no está diseñado para aquellas personas o empresas que se dedican de manera profesional a la inversión de valores, sino para aquellos inversionistas inquietos que deseen intentar una nueva forma de valuar instrumentos financieros con mayor precisión y poder subsanar de este modo la desventaja que presenta el no contar con todo un equipo de expertos en finanzas para poder determinar si el precio de determinado instrumento es el adecuado o no, basado en tecnologías que han demostrado su efectividad en otras disciplinas y que ahora se aplican a un sistema aparentemente caótico, pero a la vez con cierto orden como lo es el mercado de derivados. Existen pocos estudios realizados por medio de redes neuronales relacionados al presente, y los que existen son aplicados sobre todo a mercados de países desarrollados, por lo que se pretende que este estudio pueda aplicarse a distintas series de tiempo existentes en el MexDer, incrementando con ello el abanico de posibilidades que cualquier persona debe poseer para poder tomar las mejores decisiones. Es por esta razón que esta investigación se considera novedosa. ix Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer Por todo lo anterior, existe la necesidad de desarrollar un marco conceptual que permita fundamentar la propuesta metodológica de la presente tesis, y elaborar una investigación empírica con el fin de comprobar las hipótesis planteadas. e. Tipo de investigación Dado que no es posible realizar la manipulación de los datos de manera arbitraria en cuanto a sus valores, puesto que éstos son fijos dado que son los precios históricos de la serie de tiempo del futuro del Cete en el MexDer, este estudio no es experimental. Además, como el objeto de estudio es una serie de tiempo, el análisis será en consecuencia longitudinal. Inherentemente este estudio es diacrónico puesto que se usan los datos históricos, mismos que se emplean para predecir los valores de la serie en el tiempo t+1. Los datos considerados son los precios históricos del futuro de la serie del Cete a 91 días que cotiza en el MexDer, debido a que se quiere mostrar la aplicación de las redes neuronales artificiales al mercado mexicano. Se consideran los precios dentro del periodo del 1 de noviembre de 2002 al 12 de abril de 2007. Se pasará entonces por la etapa correlacional, donde se explicará la relación de las diversas variables involucradas en la investigación para finalmente emitir conclusiones con respecto a la mejor técnica para realizar ajustes y predicciones dentro y fuera de muestra respectivamente, así como la complejidad, ventajas y limitaciones de la metodología propuesta. f. Breve contenido de la tesis La tesis comienza con una introducción en donde se presenta un panorama general del tema, se plantea el problema, se proponen hipótesis, se dan a conocer los objetivos, se justifica la investigación, se establece el tipo de investigación y se describe brevemente su contenido. La tesis se divide en dos partes principales: la primera trata acerca de las bases teóricas de las series de tiempo y de las redes neuronales, y la segunda parte utiliza el marco teórico para desarrollar los modelos ARIMA y RNA en el ajuste y predicción de series de tiempo financieras. Parte I. Marco teórico. Series de tiempo y redes neuronales, en la cual se establecen las bases teóricas para el desarrollo de la investigación, presentando los aspectos relevantes de dichos temas, sus propiedades, aplicaciones, utilidad, complejidad y su poderoso alcance en el área de las finanzas. En el primer capítulo se revisan los conceptos de las series de tiempo, procesos estocásticos, estacionarios, modelos ARIMA, funciones de auto correlación, tipos de datos empleados en pronósticos y métodos clásicos para el tratamiento de series financieras. x Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer El segundo capítulo incluye la teoría y operación de las redes neuronales, así como el modelo general, la arquitectura, los modos de operación, la clasificación de los modelos y los pasos generales en el desarrollo de un modelo con RNA. El tercer capítulo relaciona los primeros dos capítulos por medio de la revisión de la literatura en la cual las redes neuronales son aplicadas al pronóstico de series de tiempo financieras, incluyendo el estudio de los sistemas tradicionales, los modelos lineales y no lineales, los paramétricos y no paramétricos, los modelos autorregresivos no lineales, que serán la base del modelo propuesto con RNA, así como la descripción de algunas aplicaciones seleccionadas de las RNA a las finanzas. Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la metodología ARIMA. En esta parte se aplica tanto la metodología ARIMA como la de RNA, se realiza un estudio comparativo de los resultados obtenidos y se emiten las conclusiones respectivas así como también algunas propuestas para investigaciones futuras. El capítulo cuarto trata acerca de la metodología para pronósticos mediante modelos ARIMA y RNA, en donde se explica a detalle la metodología a seguir para realizar pronósticos mediante modelos ARIMA, como son, el análisis exploratorio de la serie, la identificación del modelo, la estimación de parámetros, la verificación de diagnóstico así como el pronóstico respectivo. También se proporciona la metodología para predicción mediante RNA, la cual incluye, la selección de variables, la colección de datos, el preprocesamiento de datos, los conjuntos de entrenamiento y prueba, los paradigmas de las RNA, el criterio de evaluación, el entrenamiento de la red y la implementación respectiva. En el capítulo quinto se realiza el desarrollo y el análisis de resultados, abarcando la descripción de los datos, la obtención del modelo ARIMA, la obtención del modelo RNA, los resultados obtenidos y las pruebas de hipótesis específicas planteadas al inicio de la tesis. En el capítulo sexto se presentan las conclusiones obtenidas a través del desarrollo de la tesis, así como algunas propuestas para el desarrollo de futuras investigaciones afines al tema. Finalmente se proporciona la bibliografía empleada así como los apéndices referidos en el texto y la base de datos utilizada. xi Capítulo 1: Series de tiempo Parte I. Marco teórico Series de tiempo y redes neuronales En esta parte se establecen las bases teóricas para el desarrollo de la tesis, incluyendo también la revisión de la literatura relacionada con la aplicación de las RNA en la predicción de series de tiempo financieras. 1 Capítulo 1: Series de tiempo Capítulo 1 Series de tiempo 1.1Generalidades Una serie de tiempo es una secuencia cronológica de observaciones de una variable en particular (Bowerman y O’Connel, 1993). En términos formales, una serie de tiempo se define como una secuencia de vectores, dependientes del tiempo transcurrido t: )(tx donde t = 0, 1, 2, … Teóricamente, x se puede ver como una función continua de la variable de tiempo t. Sin embargo, para cuestiones prácticas, el tiempo generalmente se ve en términos de pasos de tiempo discretos, conduciendo a una instancia de x en cada punto de un intervalo de tiempo, generalmente de tamaño fijo (Dorffner, 1996). De acuerdo a Chatfield (1978), son varios los objetivos por los cuales se desea analizar una serie de tiempo: - Descripción: Al tener una serie de tiempo, el primer paso en el análisis es graficar los datos y obtener medidas descriptivas simples de las propiedades principales de la serie. - Explicación: Cuando las observaciones son tomadas sobre dos o más variables, es posible usar la variación en una serie para explicar la variación en las otras series. - Predicción: Dada una serie de tiempo se intenta predecir los valores futuros de la serie. Este es el objetivo más frecuente en el análisis de series de tiempo. - Control: Si una serie de tiempo se genera por mediciones de calidad de un proceso, el objetivo del análisis puede ser el control del proceso. Una serie de tiempo generalmente se examina con la intención de descubrir patrones históricos que puedan ser útiles en la predicción. Para identificar esos patrones es conveniente pensar que una serie de tiempo consiste de varios componentes: 2 Capítulo 1: Series de tiempo - Tendencia. Una serie de tiempo tiene tendencia cuando por largos periodos los valores crecen o disminuyen consistentemente. También puede definirse como cambios en la media. - Ciclos. Se refiere a movimientos hacia arriba o hacia abajo alrededor del nivel de la tendencia. Estas fluctuaciones, medidas de pico a pico, pueden tener una duración larga. - Variaciones estacionales. Son patrones históricos que ocurren y se repiten cada determinado tiempo, por ejemplo, anualmente. Estas variaciones son causadas típicamente por factores como el clima y las costumbres. - Fluctuaciones irregulares. Son movimientos irregulares en una serie de tiempo que no siguen un patrón regular, ni reconocible. Tales movimientos representan “lo que queda” en una serie de tiempo después de que la tendencia, ciclos y variaciones estacionales han sido explicados. Pueden obtenerse valores futuros de una serie de tiempo observada mediante una gran cantidad de métodos de predicción. Estos métodos pueden clasificarse fundamentalmente en tres grupos: - Subjetivos. Las predicciones se hacen sobre bases subjetivas usando el criterio, la intuición, el conocimiento en el área y otra información relevante. Entre estos métodos se encuentran: Ajuste de una curva subjetiva, el método Delphi1 y comparaciones tecnológicas en tiempo independiente. - Univariados. Con este tipo de métodos se obtienen valores futuros de la serie basándose en el análisis de sus valores pasados, se intenta conseguir un patrón en estos datos, se asume que este patrón continuará en el futuro y se extrapola para conseguir predicciones. Son muchos los métodos que encajan en esta categoría, entre estos se encuentran: Extrapolación de curvas de tendencia, suavización exponencial, método de Holt-Winters2 y método de Box-Jenkins (ARIMA). Este último es un método ampliamente utilizado. - Causales o multivariados. Involucran la identificación de otras variables que están relacionadas con la variable a predecir. Una vez que esas variables han sido identificadas, se desarrolla un modelo estadístico que describe la relación entre esas variables y la variable a pronosticar. Entre estos métodos 1 El método Delphi pretende extraer y maximizar las ventajas que presentan los métodos basados en grupos de expertos y minimizar sus inconvenientes. Para ello se aprovecha la sinergia del debate en el grupo y se eliminan las interacciones sociales indeseables que existen dentro de todo grupo. De esta forma se espera obtener un consenso lo más fiable posible del grupo de expertos. 2 El modelo de Holt-Winters es una ampliación perfeccionada del suavizamiento exponencial. 3 Capítulo 1: Series de tiempo se pueden identificar: Regresión múltiple, modelos econométricos y métodos de Box y Jenkins (Modelo de función de transferencia3). 1.2 Algunos conceptos de las series de tiempo 1.2.1 Proceso estocástico Un proceso estocástico4 o aleatorio es una colección de variables aleatorias ordenadas en el tiempo. Si Y denota una variable aleatoria y continua, se denota como Y(t), pero si es discreta se expresa como Yt. 1.2.2 Proceso estacionario Un proceso estocástico es estacionario si su media y su varianza son constantes en el tiempo y si el valor de la covarianza entre dos periodos depende solamente de la distancia o rezago entre estos dos periodos de tiempo y no del tiempo en el cual se ha calculado la covarianza. En otras palabras, una serie de tiempo no estacionaria tendrá una media que varía con el tiempo o una varianza que cambia con el tiempo o ambas (Gujarati, 2004). 1.2.3 Proceso puramente aleatorio Un proceso puramente aleatorio es un tipo especial de proceso estocástico que tiene una media igual a cero, una varianza constante σ2 y no esta serialmente correlacionada5. 1.2.4 Caminata aleatoria Es una serie de tiempo estocástica en la que cada cambio sucesivo en Yt, expresado como ut es extraído en forma independiente de una distribución de probabilidad con media 0 y varianza σ2 (Pindick y Rubinfeld, 2001). Por lo tanto, Yt está determinada por: Yt = Yt-1 + ut 3 Este modelo es una extensión del modelo ARIMA, también conocido como modelo de promedio autorregresivo móvil multivariado (MARMA). 4 El término “estocástico” proviene de la raíz griega “stokhos” que significa blanco y, hace alusión a la forma aleatoria en que se distribuyen los proyectiles lanzados contra un blanco. 5 Si también es independiente, dicho proceso se conoce estrictamente como ruido blanco. 4 Capítulo 1: Series de tiempo 1.2.5 Procesos estocásticos integrados El modelo de caminata aleatoria es un caso específico de una clase más general de procesos estocásticos conocidos como procesos integrados. Se puede demostrar de manera sencilla que la primera diferencia del modelo de caminata aleatoria es estacionaria. Si expresamos la caminata aleatoria como: (Yt – Yt-1) = ΔYt = ut Resulta fácil probar que mientras Yt no es estacionaria, su primera diferencia si lo es, ya que por definición ut tiene media constante cero y una varianza de σ2. Por tanto, se llama al modelo de caminata aleatoria sin variaciones proceso integrado de orden 1 y se denota como I(1). De manera similar, si una serie de tiempo tiene que diferenciarse dos veces para hacerla estacionaria, se llamará a esa serie de tiempo integrada de orden 2 ó I(2). En consecuencia, para convertir una serie no estacionaria en estacionaria se toman tantas diferencias como sea necesario, y se dice que el número de diferencias que se requiere para alcanzar la estacionariedad es el orden de integración de la serie. 1.2.6 Prueba de raíz unitaria Es una prueba para determinar la estacionariedad o no estacionariedad de una serie de tiempo. Si se considera la siguiente serie: Yt = ρYt-1 + ut donde -1 ≤ ρ ≤ 1 Si ρ = 1, como se demostró anteriormente, elproceso no es estacionario. De esta manera, si se realiza la regresión de Yt sobre Yt-1 y se determina que la ρ es estadísticamente igual a 1, se concluiría que Yt no es estacionaria. Ahora, al diferenciar la serie se tiene la siguiente ecuación: Yt – Yt-1 = ρYt-1 – Yt-1 + ut o expresándola de otra manera: ΔYt = δYt-1 + ut donde δ = ρ - 1 5 Capítulo 1: Series de tiempo Si δ = 0, entonces ρ = 1 y se dice que tiene una raíz unitaria, lo cual significa que la serie de tiempo bajo estudio no es estacionaria, pero al mismo tiempo ΔYt = ut. En consecuencia al tomar las primeras diferencias de la serie se obtiene una estacionaria. Para saber si δ = 0, la mayoría de los estudios aplican pruebas de raíces unitarias introducidas por Dickey y Fuller (1979) conocidas como DF o DFA (Dickey-Fuller aumentada), las cuales vienen integradas en la mayoría de los paquetes econométricos actuales. 1.3 Modelos ARIMA Box y Jenkins (1978) propusieron un modelo novedoso para la predicción de series de tiempo. Popularmente es conocida como metodología Box-Jenkins aunque técnicamente se conoce como metodología ARIMA, en la que se analizan las propiedades probabilísticas o estocásticas de las series de tiempo económicas bajo la filosofía de “permitir que la información hable por sí misma”. 1.3.1 Proceso autorregresivo (AR) En el proceso autorregresivo de orden p la observación actual Yt es generada por un promedio ponderado de observaciones pasadas que se remontan p periodos, junto con una perturbación aleatoria en el periodo actual. Se denota este proceso como AR(p) y la ecuación que lo describe es: tptpttt uYYYY +++++= −−− δααα ...2211 Donde δ es un término constante que se relaciona con la media del proceso estocástico. Es interesante observar que el modelo anterior solamente considera los valores actuales y anteriores de Yt, no hay otros regresores. 1.3.2 Proceso de media móvil (MA) En el proceso de media móvil de orden q cada observación Yt es generada por un promedio ponderado de perturbaciones aleatorias que se remontan q periodos. Se denota este proceso como MA(q) y su ecuación respectiva es: qtqtttt uuuuY −−− +++++= ββββμ ...22110 Donde μ = E(Yt). 6 Capítulo 1: Series de tiempo El modelo de media móvil supone que las perturbaciones aleatorias están distribuidas en forma independiente a lo largo del tiempo, es decir, son generadas por un proceso de ruido blanco. 1.3.3 Proceso autorregresivo y de media móvil (ARMA) Muchos procesos aleatorios estacionarios no pueden modelarse como autorregresivos puros o de medias móviles puras, ya que tienen cualidades de ambos tipos de procesos. De esta forma, se puede concebir un modelo mixto autorregresivo de media móvil de orden (p, q). Se denota este proceso como ARMA (p, q) y se representa por medio de la ecuación: qtqttptptt uuuYYY −−−− +++++++= ββδαα ...... 1111 Además, las series de tiempo económicas generalmente no son estacionarias, es decir, son integradas, razón por la cual si agregamos el concepto de integración explicado anteriormente, de manera que se tenga que diferenciar una serie de tiempo d veces para hacerla estacionaria y luego aplicar a esta el modelo ARMA(p, q) se dice que la serie de tiempo original es del tipo ARIMA(p, d, q), es decir, es una serie de tiempo autorregresiva integrada de media móvil. 1.4 Caracterización de las series de tiempo: función de autocorrelación Existen dos funciones importantes en el análisis de series de tiempo a partir de las cuales es posible extraer los parámetros del proceso ARMA. De acuerdo con Box y Jenkins, éstas son la función de autocorrelación de la muestra y la función de autocorrelación parcial. La apariencia de cada una de estas funciones da una indicación de la naturaleza del proceso bajo estudio y, en teoría, la tarea de identificar el modelo y de obtener sus parámetros se puede llevar a cabo con base en ellas. 1.4.1 Función de autocorrelación Dada una muestra Y0, Y1, …, Yn-1 de n observaciones, la función de autocorrelación muestral (FAC) de la muestra al rezago k, denotada por ρk, se define como: 0 para 1-n ..., 1, k para 1 ˆ 0 = = ⎪⎩ ⎪ ⎨ ⎧ = k k k γ γ ρ donde: γ0 es la varianza de la muestra dada por: 7 Capítulo 1: Series de tiempo ( )∑ = −= n t t YYn 1 2 0 1γ γk es la covarianza al rezago k definida como: ( )( )∑ − = + −−= kn t kttk YYYYn 1 1γ La función de autocorrelación indica cuánta correlación existe entre datos individuales contiguos en la serie Yt (Pindick, op. cit. p. 520). Conforme el valor del retraso aumenta, el número de observaciones comprendidas en la autocovarianza disminuye hasta el elemento final. Al graficar ρk frente a k, la gráfica obtenida se conoce como correlograma. Cuando se grafica ρk se debe omitir el valor ρ0 el cual es invariablemente 1. Además, al interpretar la gráfica se debe tener cuidado de dar demasiada importancia a correlaciones en valores de retrasos que están significativamente altos en relación con el tamaño de la muestra. 1.4.2 Función de autocorrelación parcial La función de autocorrelación parcial (FACP) de la muestra ρkk en el retraso k es la correlación entre observaciones (series de tiempo) que están separadas k periodos de tiempo, manteniendo constantes las correlaciones en los rezagos intermedios (es decir rezagos menores de k). En otras palabras, la autocorrelación parcial es la correlación entre Yt y Yt-k después de eliminar el efecto de las Y intermedias. En la tabla 1.1 se dan algunos lineamientos generales acerca de los patrones típicos de las funciones de correlaciones muestral y parcial (Gujarati, op. cit., p. 818). Tipo de modelo Patrón típico de FAC Patrón típico de FACP AR(p) Disminuye exponencialmente o con un patrón sinusoidal decreciente o ambos Picos grandes a lo largo de los p rezagos MA(q) Picos grandes a lo largo de los q rezagos Decrece exponencialmente ARMA(p, q) Decrece exponencialmente Decrece exponencialmente Tabla 1.1 Patrones teóricos de FAC y FACP 8 Capítulo 1: Series de tiempo 1.5 Propiedades de las series de tiempo financieras La predicción de series de tiempo financieras es una tarea altamente complicada debido a las siguientes razones: - Las series de tiempo financieras se comportan casi como un proceso de caminata aleatoria, impidiendo desde un punto de vista teórico la predicción (Hellström y Holmström, 1998). La predicción de las series de tiempo más comunes (precios de acciones, niveles de índices) es un tema controversial y ha sido cuestionado en función de la hipótesis de mercados eficientes. - Las series de tiempo financieras están sujetas al cambio en el tiempo, por ejemplo, las propiedades estadísticas de las series de tiempo son diferentes en distintos puntos del tiempo (el proceso de variación en tiempo, Hellström y Holmström, ibid.). - Las series de tiempo financieras son generalmente muy ruidosas, ya que existe una gran cantidad de aleatoriedad (impredecible) en las variaciones día a día (Magdon-Ismail, et. al., 1998). - En el largo plazo, una nueva técnica de predicción llega ser parte del proceso a ser predicho, por ejemplo, se influencia el proceso en predicción (Hellström y Holmström, op. cit.). 1.5.1 Hipótesis de los mercados eficientes La hipótesis de los mercados eficientes o HME fue desarrollada por Fama (1965) y ha encontrado una gran aceptación en el medio financiero, Anthony y Biggs (1965), Malkiel (1987), Tsibouris (1995), White(1988), Lowe y Webb (1991) y Lawrence et. al. (1996). La hipótesis de los mercados eficientes establece que el precio actual de mercado refleja la asimilación de toda la información disponible. Esto significa que dada la información, no se pueden hacer predicciones en cambios futuros de precios. Conforme nueva información entra al sistema, se descubren inmediatamente los ajustes y se eliminan rápidamente corrigiendo el precio de mercado. Dependiendo del tipo de información considerada, existen tres formas de HME (Hellström y Holmström, op. cit.): La forma débil. Solamente se consideran los datos de precios pasados. Este tipo de HME elimina cualquier forma de predicción basado en los precios solamente, porque los precios siguen una caminata aleatoria en la cual, los cambios sucesivos tienen correlación cero. 9 Capítulo 1: Series de tiempo La forma semifuerte. Se considera toda la información pública disponible. Esta incluye información adicional como volúmenes y datos fundamentales como pronósticos de utilidades y predicciones de ventas. La forma fuerte Toda la información disponible ya sea pública o privada es considerada. En años recientes, la HME llegó a ser un asunto controversial debido a varias razones. Por una parte, se mostró en algunos estudios que se pueden lograr utilidades en exceso usando sólo los datos de precios históricos (Tino, et al, 2000), por otra parte es muy difícil de probar la forma fuerte debido a la falta de datos. Otro argumento razonable en contra de la HME se refiere a las diferentes perspectivas de tiempo que tienen los inversionistas cuando hacen negocios. Por ejemplo, un accionista mayoritario reaccionará de manera diferente a un vendedor de piso cuando el precio de una acción cae repentinamente. Estas perspectivas de tiempo causarán anomalías en los precios de mercado aún si no entra información nueva al sistema. Puede ser entonces posible identificar estas situaciones y eventualmente predecir cambios futuros (Hellström y Holmström, op. cit.). De manera más frecuente, los argumentos a favor de la HME se refieren a las pruebas estadísticas que muestran que no existe calidad predictiva en los modelos probados e indicadores técnicos. La mayoría de los argumentos en contra de la HME se refieren a un retraso en tiempo entre el punto cuando la nueva información entra al sistema y el punto cuando es asimilada. 1.6 Datos usados en la predicción de series de tiempo financieras Existen varios tipos de datos que pueden ser empleados en la predicción de series de tiempo, los cuales generalmente son agrupados en dos categorías: datos técnicos y datos fundamentales (Hellström y Holmström, op. cit.). 1.6.1 Datos técnicos. Estos incluyen datos como precios de acciones, volumen, volatilidad, etc. De hecho, el término series de tiempo financieras usualmente se refiere a series de tiempo de datos técnicos. Los típicos datos técnicos involucrados en la predicción de series de tiempo financieras son: - yC: precio de cierre; último precio negociado del día. - yH: precio más alto negociado durante el día 10 Capítulo 1: Series de tiempo - yL: precio más bajo negociado durante el día - V: volumen total negociado durante el día Mientras que en la mayoría de los casos se utilizan los datos diarios para modelar el comportamiento de precios de acciones, también están disponibles algunos datos de negociación intradía. Tales datos son usados en su mayoría no para modelar el mercado, sino para determinar el tiempo correcto de la intención de negociación en una operación real. La opción más común de predicción es la serie de tiempo que emplea precios de cierre. Esta opción tiene algunas deficiencias, entre ellas: - Los precios de cierre varían grandemente y hacen difícil crear un modelo para un periodo largo de tiempo. - Los precios de cierre para diferentes acciones pueden diferir grandemente sobre varias décadas o incluso años, y por lo tanto, no pueden ser usadas como el mismo tipo de entrada en un modelo. En lugar de modelar precios de cierre, una buena opción en muchos casos es usar el rendimiento como tipo de dato. 1.6.2 Datos fundamentales El análisis del valor de una compañía se realiza usualmente por analistas de mercado profesionales de manera regular. Sus análisis proporcionan una base para evaluar el valor real de la acción de la empresa. Los analistas fundamentales toman en consideración los siguientes factores: - El estado real de la economía medida por la inflación, la tasa de interés, el balance comercial, etc. - La situación de la industria a la cual pertenece la empresa medida por medio de: o Índices de precios de acciones (Dow Jones, DAX, FTSE 100, S&P 500, IPC, etc). o Precios de productos relacionados como el petróleo, metales diversos y monedas. o El valor de las acciones de la competencia. - La situación de la compañía medida por: o La razón precio de la acción dividido entre el rendimiento por acción durante los 12 meses anteriores. 11 Capítulo 1: Series de tiempo o Valor en libros por acción (activos netos divididos entre el número total de acciones). o Margen de ganancia neta o ingreso neto dividido entre las ventas totales. o Razón de deuda o deudas divididas entre el total de activos. o Pronósticos de ganancias futuras. o Pronósticos de ventas futuras. Además de los anteriores, existen otros tipos que son generados al transformar y combinar datos técnicos y/o fundamentales como los siguientes: Rendimientos El rendimiento a un paso se define como el incremento relativo en el precio anterior de la serie de tiempo: )1( )1()()( − −− = ty tytytR El rendimiento logarítmico se define como: )1( )(log)( − = ty tytR Los datos así transformados son muy similares, con cambios pequeños y usados muy frecuentemente en la predicción de series de tiempo financieras por las siguientes razones: - R(t) tiene un rango relativamente constante aún si se usan datos de varios años como entradas. Los precios de y pueden variar mucho y hacer difícil la creación de un modelo válido para un periodo de tiempo grande. - R(t) para diferentes acciones pueden ser comparadas de igual forma. - Es fácil de evaluar un algoritmo de predicción para R(t) calculando la exactitud de la predicción del signo de R(t). Volatilidad La volatilidad es sinónimo de la desviación estándar de algún valor (por ejemplo el precio de una acción). La volatilidad es una medida del riesgo, pero también de posibilidades de ganancias. En las llamadas estrategias de negociación delta- neutral (para contratos de opciones), la ganancia o pérdida de una operación no depende del precio, sino de la volatilidad del precio de la acción respectiva 12 Capítulo 1: Series de tiempo (Tompkins, 1997). Así, la volatilidad no sólo es una medida del riesgo, sino un producto negociable. 1.7 Suavizamiento de series de tiempo Dependiendo de la serie de tiempo, algunas veces resulta necesario suavizarla para de esta manera eliminar algunas de las fluctuaciones a corto plazo más volátiles. Dicho suavizamiento puede realizarse antes de generar un pronóstico o también para contar con una serie de tiempo más fácil de analizar e interpretar. Una forma sencilla de suavizar una serie es tomar un promedio móvil de periodo n. La serie Yt suavizada de esta manera queda expresada por: ( )11 ... 1ˆ +−− +++= ntttt YYYn Y Mientras más grande sea la n, más suave resultará la serie. Otro método de suavizamiento es el exponencial,el cual hace uso del modelo de promedio móvil con ponderaciones decrecientes en forma de progresión geométrica: ...)1()1(ˆ 2 2 1 +−+−+= −− tttt YYYY ααααα Donde el coeficiente α puede tomar valores entre 0 y 1. La suma de los coeficientes siempre dará la unidad, ya que: ( )∑ ∞ = = −− =− 0 1 )1(1 1 s s α ααα Por lo tanto, se necesitan menos términos de la media móvil cuanto mayor sea el valor de α. Para α = 1, la media coincidirá con el valor del periodo. Con un α cercano a cero, las ponderaciones de los valores serán todas muy pequeñas y el número de términos será mayor. La elección del parámetro α debe ajustarse para cada serie en particular, aunque muchos programas permiten el cálculo automático del valor óptimo de α, en el sentido de seleccionar aquel que minimiza el error cuadrático medio. Algunas veces se requiere hacer una mayor suavización de una serie pero no dar mucho peso a los datos individuales pasados. En este caso, el uso de la ecuación con un valor pequeño de α no sería aceptable, pero en su lugar puede aplicarse un suavizamiento exponencial doble. Como su nombre lo indica, la serie suavizada inicialmente se suaviza otra vez. 13 Capítulo 1: Series de tiempo La fórmula de suavizamiento exponencial simple también puede modificarse incorporando cambios promedio en la tendencia (incremento o disminución) a largo plazo de la serie. Esto fundamenta el método de suavizamiento exponencial lineal con dos parámetros propuesto por Holt y ampliado por Winters, y que actualmente es conocido como suavizamiento exponencial lineal con doble parámetro o técnica de Holt-Winters, (Pulido y López, 1999). 1.8 Métodos clásicos para el tratamiento de series de tiempo financieras Los métodos tradicionales de series de tiempo financieras incluyen los siguientes modelos: - Modelo de media. yty μ=ˆ Por ejemplo, el valor a predecir es igual al valor de la media de la muestra de la serie de tiempo. - Modelo de tendencia lineal tyt βα +=ˆ Es equivalente a ajustar una línea a una serie de observaciones de manera tal que los residuos sean minimizados. - Modelo de caminata aleatoria α+= −1ˆ tt yy El valor estimado es equivalente al valor previo más una diferencia aleatoria, y es aplicable a series de tiempo que no son estacionarias pero que sus primeras diferencias sí lo son. - Modelo de caminata aleatoria geométrica α+= − )log()log( 1tt yy αeyy tt 1−= )1(1 α+≈ −tt yy 14 Capítulo 1: Series de tiempo Aplicable a series de tiempo que exhiben un crecimiento exponencial irregular, pero cuya transformación logarítmica de dicho crecimiento es más o menos lineal y puede ser aproximada por el modelo de caminata aleatoria. - Modelos AR, MA, ARMA, ARIMA, ARFIMA así como modelos basados en ellos (que pueden incluir algunas transformaciones específicas que ayudan a quitar tendencias estacionarias). - Modelos de la familia ARCH (ARCH, GARCH, I-GARCH, GARCH-M, etc) que son usados para modelar series de tiempo cuyas varianzas cambian en el tiempo (Gujarati, op. cit., p. 829). - Modelos de valuación de activos de capital (CAPM), utilizan el rendimiento para activos individuales o portafolios (Bodie y Merton, 2003). - Modelos basados en Black y Scholes empleados para modelar precios de opciones tomando en consideración las propiedades específicas de ellas. 15 Capítulo 2: Redes neuronales Capítulo 2 Redes neuronales 2.1 Generalidades Las Redes Neuronales Artificiales (RNA) forman parte de una tecnología de procesamiento de información que surge a raíz de los últimos desarrollos en software computacional aplicados al área de inteligencia artificial. Representan una herramienta muy innovadora para simular y analizar sistemas de relaciones complejas y cambiantes. Las RNA son modelos matemáticos desarrollados con base en el funcionamiento de los sistemas nerviosos biológicos. De esta manera, se intenta contar con un sistema que imite el funcionamiento natural de las neuronas, es decir, que puedan “pensar” y “aprender” como el cerebro humano, el cual se puede ver como un conjunto interconectado de neuronas. La primera interpretación matemática de las redes neuronales fue realizada en 1865 cuando Mach, un físico y filósofo austriaco, intentó explicar la interacción recíproca e inhibitoria de los elementos que rodean a la retina (Peel y Wilson, 1996). Los trabajos sobre el desarrollo de modelos matemáticos detallados comienzan desde hace más de cuarenta años, con los trabajos de McCulloch y Pitts (1943), Hebb (1949), Rosenblatt (1959), Widrow (1960) y Posch (1968), entre otros. Sin embargo, cuando se pretende analizar un conjunto de datos con relaciones complejas y condiciones adicionales, la cantidad de procesamiento requerida se eleva considerablemente, lo cual ocasionó que los primeros intentos por utilizar este tipo de modelos fueran abandonados debido a la limitada capacidad de los sistemas de cómputo disponibles en la época. Fue hasta los años 80 cuando se retoma el interés por su empleo de forma más generalizada. Esto debido a los avances en la potencia de cálculo de las nuevas computadoras, aunado a un mayor conocimiento del funcionamiento del propio cerebro humano. Así, los estudios realizados en este campo por Hopfield (1982, 1984 y 1986), Rumelhart y McClelland (1986), Sejnowski y Rosemberg (1986), Feldman (1982), Grossberg (1986) y otros, permitieron el resurgimiento de esta nueva área del conocimiento. Este nuevo interés se debió al desarrollo de algoritmos y nuevas topologías de red, nuevas técnicas de implementación de circuitos VLSI6 analógicos (Mead, 1986) y algunas demostraciones intrigantes por parte de Senowski (op. cit.) y 6 Very Large Scale Integration (escala de integración muy grande). Se refiere a una gran cantidad de circuitos eléctricos que pueden ser colocados en un área muy pequeña. 16 Capítulo 2: Redes neuronales Hopfield (op. cit.), así como por la creciente fascinación por el funcionamiento del cerebro humano. 2.2 Teoría y operación Para poder entender el funcionamiento de un sistema nervioso biológico es necesario conocer las partes que lo componen, así como la interacción que existe entre sus propios elementos y su relación con el exterior. Ramón y Cajal (1899) proporciona un buen estudio e introducción en este sentido. También Berumen (1998) en su tesis de maestría realiza una completa síntesis de las redes neuronales y algunas aplicaciones a las finanzas. Lo importante del presente trabajo es el de tratar de imitar el extraordinario funcionamiento de los sistemas nerviosos por medio de redes neuronales artificiales, y aprovechar las ventajas que ofrecen en la resolución de problemas prácticos, gracias a la capacidad innata que tienen los sistemas biológicos de aprender a partir de ejemplos. Algo que la propia naturaleza ha logrado a lo largo de millones de años para adaptarse al medio que lo rodea y, resolver problemas que involucran el tratamiento de información masiva, imprecisa y distorsionada proveniente del entorno natural. Sin embargo, dada la complejidad de los sistemas neuronales biológicos, es necesario hacer una abstracción de las funciones y elementos que los componen para poder emplear modelos capaces de ser implementados con la tecnología disponible. De esta manera, y considerando a las neuronas desde un punto de vista práctico, éstas pueden ser vistas como pequeños procesadores de información. Las cuales -haciendo una analogía con los sistemas informáticos tradicionales- poseen un canal de entrada de información, lasdendritas, un órgano de cómputo, el soma, y un canal de salida, el axón7. La conexión funcional entre dos neuronas para el transporte del impulso nervioso se denomina sinapsis. En relación a la sinapsis, se mencionan dos tipos de neuronas, presinápticas (las que envían señales) y postsinápticas (las que reciben señales). La intensidad de una sinapsis no es fija, sino que puede cambiar, dependiendo de determinadas condiciones. Esta variabilidad en la intensidad de la sinapsis constituye en buena medida el aprendizaje propiamente dicho, tal y como lo postuló Hebb (op. cit.), encontrándose evidencias experimentales de ello en Nieto (1989), Alkon (1989) y, Kandel y Hawkins (1992). Existen varias formas de modelar el sistema nervioso: por el establecimiento de nuevas conexiones, ruptura de otras, modelado de las intensidades sinápticas (plasticidad) o incluso mediante muerte neuronal. En especial, la modificación de las intensidades sinápticas es el mecanismo más empleado por los sistemas neuronales artificiales para llevar a cabo el aprendizaje. 7 Se trata solamente de recoger parte del funcionamiento de la neurona, ya que se sabe que su funcionamiento completo es mucho más complejo. 17 Capítulo 2: Redes neuronales Por medio de las redes neuronales artificiales se pretenden replicar tres características importantes de los sistemas nerviosos: el paralelismo de cálculo, la memoria distribuida y la adaptabilidad. El paralelismo de cálculo está relacionado con la existencia de varios elementos de cálculo capaces de procesar información de manera simultánea -o en paralelo-, permitiendo al sistema un manejo de información mucho más rápido que un sistema que ejecuta instrucciones de manera secuencial. La memoria distribuida se refiere a la posición de las localidades de memoria que ocupa la información –que a diferencia de las computadoras convencionales en las que ocupa posiciones de memoria bien definidas-, en las redes neuronales se encuentra definida de acuerdo a la sinapsis particular de la red. Por último, la adaptabilidad se da por medio de la modificación de las sinapsis existentes en la red y a su capacidad de “aprender” por medio de ejemplos o patrones –también llamada experiencia-, para poder realizar generalizaciones a partir de ejemplos específicos y explotar esa característica esencial y hasta distintiva del sistema nervioso humano. De acuerdo a lo anterior, se puede decir entonces que las redes neuronales son sistemas paralelos, distribuidos y adaptables. En un sistema neuronal biológico, las neuronas son los elementos básicos. Millones de neuronas se organizan en capas para formar sistemas con determinada funcionalidad, lo que en conjunto constituyen el sistema nervioso. En el caso de un sistema neuronal artificial se puede intentar copiar dicha estructura, en la cual, la neurona artificial se organiza en capas, varias capas forman una red y la red, con sus interfaces de entrada y salida constituyen un sistema neuronal completo. 2.3 Modelo General de una Neurona Artificial De acuerdo con lo establecido por el grupo PDP8, el funcionamiento de una neurona o procesador elemental se puede modelar por medio de una función (Rumelhart y McClelland, op. cit.)., por lo que la operación de una neurona i se puede expresar de la siguiente forma: ( )))](,(),([)( txwtafFty jijiiiii σ1−= Donde: xj(t) representa el conjunto de entradas, 8 Parallel Distributed Processing Research Group. Es un grupo de investigación en RNA, a quienes se atribuye en gran medida el renacimiento de las redes neuronales en la década de los 80. Su trabajo se publicó en dos volúmenes considerados clásicos (Rumelhart y McClelland, 1986). 18 Capítulo 2: Redes neuronales wij son los pesos sinápticos de la neurona i, que representan la intensidad de la relación entre la neurona presináptica j y la neurona postsináptica i, σi[wij, xj(t)] es la regla de propagación que proporciona el valor del potencial postsináptico hi(t) = σ[wij, xj(t)] de la neurona i en función de sus pesos y entradas, fi[ai(t-1), hj(t)] es la función de activación que proporciona el estado de activación actual ai(t) = fi[ai(t-1), hj(t)] de la neurona i, en función de su estado anterior ai(t-1) y de su potencial postsináptico actual. Fi[ai(t)] es la función de salida que proporciona la salida actual yi(t) = Fi[ai(t)] de la neurona i en función de su estado de activación. Una representación gráfica de lo anterior se puede ver en la figura 2.1 (Rumelhart, 1986). Regla de propagación Función de activación Función de salida Salida yi Entradas xj ai = f(hi) hi = σ(wij, xj) yi = F(ai) Pesos sinápticos wij Figura 2.1 Modelo de una neurona artificial. De acuerdo a Nelson e Illingworth (1991), existe una infinidad de formas de organizar una red neuronal aunque, tal vez sólo una docena de modelos son de uso común. Una red neuronal se puede describir en términos de su neurodinámica y arquitectura. La neurodinámica se refiere a las propiedades de una neurona artificial individual que consiste de lo siguiente: 19 Capítulo 2: Redes neuronales - Combinación de entradas - Producción de salidas - Tipo de funciones de transferencia (o activación) - Esquemas de pesos, v. gr. inicialización de pesos, y algoritmos de entrenamiento. Estas propiedades también pueden ser aplicadas a la red en su conjunto de un sistema básico. La arquitectura de red o topología define la estructura de la red e incluye las siguientes características básicas: - Tipos de interconexiones entre neuronas - Número de neuronas - Número de capas 2.4 Neurodinámica 2.4.1 Entradas Las variables de entrada y salida pueden ser tanto analógicas como digitales, dependiendo del modelo como de las aplicaciones. La capa de entrada de una red neuronal comúnmente funciona como un regulador de las entradas, transfiriendo datos a la siguiente capa. Se puede requerir realizar un preprocesamiento para que la red sólo maneje datos numéricos. Esto puede involucrar el escalamiento de los datos de entrada y convertir o codificar los datos de entrada a una forma numérica que pueda ser usada por la red. 2.4.2 Salidas La capa de salida de una red neuronal funciona de una forma similar a la capa de entrada excepto que transfiere la información de la red al exterior. Frecuentemente se utiliza un postprocesamiento para convertir la información a una forma comprensible y útil hacia fuera de la red. Dependiendo del tipo de salida, las neuronas reciben nombres específicos. Por ejemplo, las neuronas estándar cuya salida sólo puede tomar el valor de 1 ó 0 se conocen como tipo McCulloch-Pitts, mientras que las que toman a su salida los valores de -1 y +1 se llaman del tipo 20 Capítulo 2: Redes neuronales Ising9, si puede adoptar diversos valores en la salida, v. gr. -2, -1, 0, 1, 2, se dice que se trata de una neurona tipo Potts (Müller,1990). 2.4.3 Regla de propagación La regla de propagación permite calcular el valor del potencial post-sináptico hi de la neurona a partir de las entradas y pesos correspondientes. La función más común es la suma ponderada de las entradas y los pesos sinápticos. ∑= j jiji xwth )( Utilizando la notación de vectores, se puede representar como el producto escalar del vector de entrada y el de pesos. xw ⋅= Tii th )( El peso sináptico wij se interpreta como la intensidad de la relación entre la neurona presináptica j y la postsináptica i. Dependiendo de la entrada, si el peso es positivo y la entrada también positiva, se tenderá a excitar a la neuronapostsináptica, pero si el peso es negativo se tenderá a inhibirla. Por lo que se habla entonces de sinapsis excitadoras (con peso positivo) o inhibidoras (con peso negativo). Una regla de propagación no lineal es la siguiente: ∑= jpjj jpjjjpjjii xxxwth ... ... ...)( 21 2121 que involucra la multiplicación de todas las entradas de la neurona, lo cual se acerca mucho a la funcionalidad de la neurona biológica, pero aumenta su complejidad tanto en su análisis como en el hardware necesario para implementarla. Este tipo de neurona se denomina de orden superior o neurona sigma-pi, debido al empleo de sumas y multiplicaciones (Rumelhart, op. cit.). 9 Ising, debido al paralelismo con el modelo de Ising, que es un modelo físico propuesto para estudiar el comportamiento de los materiales ferromagnéticos. En el modelo se emplea el espín σi o espín de la partícula i- ésima, que puede tomar sólo dos valores, +1 y -1. 21 Capítulo 2: Redes neuronales Otra regla de propagación empleada comúnmente en los modelos que emplean el cálculo de distancias entre vectores (como RBF, mapas de Kohonen o LVQ), es la distancia euclídea: ∑ −= j ijji wxth 22 )()( la cual determina la distancia entre el vector de entradas y el de pesos. Cuando los vectores de entrada y de pesos son similares, la distancia es muy pequeña, y cuando son diferentes la distancia se incrementa. 2.4.4 Función de activación o función de transferencia Esta función determina el estado de activación actual ai(t) a partir del potencial postsináptico hi(t) y del estado de activación anterior ai(t-1) ))(),(()( thtafta iiii 1−= Aunque en muchos modelos sólo se considera su estado actual, la función se expresa como sigue: ))(()( thfta iii = Existen varias funciones de activación, algunas de las cuales se muestran en la figura 2.2 La variable x representa el potencial postsináptico, mientras que la variable y = f(x) representa el estado de activación. La función identidad, la función escalón y la función lineal por intervalos son las más sencillas. Aunque dependiendo del algoritmo de aprendizaje, algunas veces se requiere que la función de activación sea derivable, las más empleadas en este caso son las funciones del tipo sigmoideo. 22 Capítulo 2: Redes neuronales Figura 2.2 Funciones de activación comunes. La función gaussiana también es ampliamente utilizada junto con reglas de propagación que involucran el cálculo del cuadrado de las distancias entre los vectores de entrada y pesos, como se mencionó anteriormente. Las funciones sinusoidales también se emplean en los casos en los que es necesario expresar una periodicidad temporal. 2.4.5 Función de salida La función de salida determina la salida total de la neurona yi(t) en función de su estado de activación actual ai(t). Frecuentemente se usa la función identidad y = x, de tal forma que el estado de activación de la neurona se considera como la propia salida: ( ) )()()( tataFty iiii == 23 Capítulo 2: Redes neuronales La función de salida también puede ser un escalón, para que la neurona dispare la salida hasta que se alcance cierto nivel de umbral. 2.5 Modelo estándar de una neurona artificial El modelo anterior es muy general, por lo que de manera práctica se emplea un modelo estándar más sencillo. Además, en algunas ocasiones se agrega al conjunto de pesos de la neurona un parámetro adicional θi en las unidades de i, llamado umbral10 quedando el argumento de la función de la siguiente manera: ∑ − j ijij xw θ Lo anterior implica agregar un grado de libertad a la neurona. Para el caso de las neuronas todo-nada mencionadas más adelante, el parámetro θ representará el nivel mínimo o umbral que debe alcanzar el potencial postsináptico para que la neurona se active. De esta forma, el modelo de la neurona queda: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= ∑ j ijijii xwfty θ)( Para expresar el modelo de una forma más compacta, los índices i y j se hacen que comiencen en cero, definiendo wi0 ≡ θi y x0 ≡ -1. Finalmente, el modelo se puede expresar de la siguiente manera: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = ∑ = n j jijii xwfty 0 )( donde: xj(t) es el conjunto de entradas, wij son los pesos sinápticos, ∑= jiji xwth )( es la regla de propagación y 10 También es conocido como sesgo y se le asigna un valor numérico de uno. 24 Capítulo 2: Redes neuronales ( )()( thfty iii = ) es la función de activación que representa tanto la salida de la neurona como su estado de activación. Con el modelo de la neurona establecido solo es necesario especificar la forma de la función de activación para caracterizarla por completo. A continuación se muestran algunos de los modelos de neuronas más comunes. 2.5.1 Neuronas todo-nada Tomando como referencia al modelo de la neurona estándar, considerando que las entradas son discretas, por ejemplo xi = {0, 1}, y que la función de activación es el escalón H(x), definido entre 0 y 1, se tiene: ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= ∑ j ijiji xwHty θ)( y como la función H(x) = 1 cuando x ≥ 0, y H(x) = 0 cuando x < 0, se tiene lo siguiente: ⎩ ⎨ ⎧ < ≥ = ∑ ∑ si , si , ijij ijij i xw xw y θ θ 0 1 Por lo que, cuando el potencial de entrada supera el umbral θi la neurona se activa, de lo contrario permanece inactiva. Debido a lo anterior este modelo se conoce también como dispositivo de umbral dada su forma de activación. 2.5.2 Neurona continua sigmoidea Si el modelo de neurona estándar puede tener entradas tanto discretas como continuas pero la salida solamente continua, se puede emplear como función de activación a la función sigmoidea, que es una función continua y diferenciable en determinado intervalo. Las dos funciones más comunes son las siguientes: [0,1] ycon , ∈ + = −xe y 1 1 [-1,1] ycon ),( ∈= + − = − − xtgh ee eey xx xx El motivo de emplear funciones diferenciables es que algunas reglas de aprendizaje así lo requieren, tal como sucede con la retropropagación ó BP11. 11 Back-propagation por sus siglas en inglés. 25 Capítulo 2: Redes neuronales 2.6 Arquitecturas de redes neuronales La arquitectura es la topología, estructura o patrón de conexión de una red neuronal. En una RNA los nodos se conectan por medio de sinapsis, por lo que la configuración de estas sinapsis determina el comportamiento de la red. Las conexiones sinápticas son direccionales, por lo que la información sólo puede viajar en un solo sentido, de la neurona presináptica a la neurona postsináptica. Ver figura 2.3. Neurona presináptica (j) Neurona postsináptica (i) xj wij yj yi (j) (i) Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica. Las neuronas se pueden agrupar en capas, las capas a su vez pueden agruparse en grupos neuronales o clusters. El conjunto de una o más capas se denomina red neuronal. Existen tres tipos de capas: de entrada, salida y ocultas. La capa de entrada está compuesta por neuronas que reciben información proveniente del entorno. La capa de salida es la que proporciona la respuesta de la red neuronal. La capa oculta es la que no tiene relación alguna con el exterior. Este tipo de capa agrega a la red, grados de libertad adicionales, con los cuales es posible representar diversas configuraciones y mejorar la capacidad de cálculo. Las conexiones entre las neuronas pueden permitir su excitación o inhibirla de acuerdo al peso sináptico, por lo que se define como una conexión inhibitoria a aquella que tiene un peso sináptico negativo y a una conexión
Compartir