Logo Studenta

Pronosticos-en-el-mercado-de-derivados-utilizando-redes-neuronales-y-modelos-ARIMA--una-aplicacion-al-Cete-de-91-dias-en-el-MexDer

¡Este material tiene más páginas!

Vista previa del material en texto

Universidad Nacional Autónoma de México 
 
Programa de Posgrado en Ciencias de la Administración 
F a c u l t a d d e C o n t a d u r í a y A d m i n i s t r a c i ó n 
F a c u l t a d d e Q u í m i c a 
I n s t i t u t o d e I n v e s t i g a c i o n e s S o c i a l e s 
I n s t i t u t o d e I n v e s t i g a c i o n e s J u r í d i c a s 
 
 
T e s i s 
 
 
 
Pronósticos en el mercado de derivados utilizando 
redes neuronales y modelos ARIMA: una aplicación al Cete 
de 91 días en el MexDer. 
 
 
 
 
Que para obtener el grado de: 
 
 
 
Maestro en Finanzas 
 
 
 
 
Presenta: Iván Cruz Torres 
 
 
 
 T u t o r : M. en F. Arturo Morales Castro 
 
 
 
 
 
 
 México, D.F. 2007 
 
 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Agradecimientos 
 
 
 
 
 
A mis Padres: Martha y Raymundo por todo su apoyo. 
 
 
Al Mtro. Arturo Morales Castro por su ayuda, consejos, interés, paciencia y sobre todo 
por su propuesta para el desarrollo de la tesis, ya que sin su colaboración, este 
trabajo no habría sido posible. Gracias. 
 
 
A la Universidad Nacional Autónoma de México y a la Facultad de Contaduría y 
Administración, por abrirme sus puertas y dejarme ser parte de ellos. 
 
 
A Janett, por su apoyo y comprensión durante el desarrollo de esta tesis, hemos 
pasado muy buenos momentos juntos. 
 
 
A todos los que directa o indirectamente hayan hecho posible que otro de mis sueños 
se haya hecho realidad. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
El problema real no es si las máquinas piensan, sino si los hombres lo hacen. 
 
 
B. F. Skinner, Contingencies of reinforcement, 1969. 
 
 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 
 
 
Índice 
 
 
Índice ……………………………………………………………………………………………. i 
 
Índice de tablas y figuras …………………………………………..……………….…….….. v 
 
Resumen ………………………………………………………………………………..……... vi 
 
Introducción …………………………………………………………......……………………. vii 
 
 a. Planteamiento del problema ................................................................................. vii 
 b. Hipótesis …………………………………………………………….……….…...……. viii 
 c. Objetivos ……………………………………………………..…………………………. ix 
 c.1 Objetivo general ………………………………………………………...………… ix 
 c.2 Objetivos específicos ……………………………………………….…….…..….. ix 
 d. Justificación …………………………………………………………………………….. ix 
 e. Tipo de investigación ……………………………………………….……….…..…...… x 
 f. Breve contenido de la tesis ……………………………………………………......…… x 
 
 
Parte I. Marco Teórico. Series de tiempo y redes neuronales …………………………… 1 
 
Capítulo 1. Series de tiempo …………………………..…………………………………….. 2 
 
 1.1 Generalidades ………………………………………………………………..…....….. 2 
 1.2 Algunos conceptos de las series de tiempo …………………………..………..….. 4 
 1.2.1 Proceso estocástico ……………………………………….…………..……….. 4 
 1.2.2 Proceso estacionario ...………………………………………………..…….….. 4 
 1.2.3 Proceso puramente aleatorio ………………………………………...…….….. 4 
 1.2.4 Caminata aleatoria ……………………………………….………..………..….. 4 
 1.2.5 Procesos estocásticos integrados …………………………………………….. 5 
 1.2.6 Prueba de raíz unitaria ……………………………………….………..…...….. 5 
 1.3 Modelos ARIMA ……………………………………….…………………………..….. 6 
 1.3.1 Proceso autorregresivo (AR) …………………………………………..…..….. 6 
 1.3.2 Proceso de media móvil (MA) ………………………………………...……….. 6 
 1.3.3 Proceso autorregresivo y de media móvil (ARMA) …………………….....… 7 
 1.4 Caracterización de las series de tiempo: función de autocorrelación …….…..… 7 
 1.4.1 Función de autocorrelación …………………………………………………..... 7 
 1.4.2 Función de autocorrelación parcial …………………………..…………..…… 8 
 1.5 Propiedades de las series de tiempo financieras ………………………….....…… 9 
 1.5.1 Hipótesis de los mercados eficientes …………………………………..…..… 9 
 1.6 Datos usados en la predicción de series de tiempo financieras ….……………. 10 
 1.6.1 Datos técnicos. ……………………………………………………………..….. 10 
 
i 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 1.6.2 Datos fundamentales …………………………………………………..….….. 11 
 1.7 Suavizamiento de series de tiempo ……………………………………………….. 13 
 1.8 Métodos clásicos para el tratamiento de series de tiempo financieras ………... 14 
 
 
Capítulo 2. Redes neuronales ………………………………………………………….….. 16 
 
 2.1 Generalidades ……………………………….……………………………….…….... 16 
 2.2 Teoría y operación ………………………………………….…………………...….. 17 
 2.3 Modelo General de una Neurona Artificial ……………………..………………… 18 
 2.4 Neurodinámica ……………………………………….…………………………….... 20 
 2.4.1 Entradas …………………………………………………………………….….. 20 
 2.4.2 Salidas …………………………………………………………………..…..….. 20 
 2.4.3 Regla de propagación …………………………………………………….…... 21 
 2.4.4 Función de activación o función de transferencia ……….…………………. 22 
 2.4.5 Función de salida ……………………………………………….………….….. 23 
 2.5 Modelo estándar de una neurona artificial …………………………….………..… 24 
 2.5.1 Neuronas todo-nada ……………………………………….……………...….. 25 
 2.5.2 Neurona continua sigmoidea ………………………………………….….….. 25 
 2.6 Arquitecturas de redes neuronales ………………………………………….…….. 26 
 2.6.1 Redes Neuronales de dos capas …………………………………….….….. 27 
 2.6.2 Redes Neuronales multicapa .………………………………………...….….. 29 
 2.6.3 Una definición formal de red neuronal …………………………….………... 32 
 2.6.4 Actualización del estado de las neuronas ………………………………..…. 33 
 2.7 Modos de operación de una red neuronal …………………………………….….. 34 
 2.7.1 Modo de aprendizaje ………………………………………………………….. 34 
 2.7.1.1 Aprendizaje supervisado ………………………………………….…..… 36 
 2.7.1.2 Aprendizaje no supervisado …………………..………………….…….. 36 
 2.7.1.3 Aprendizaje híbrido ……………………………………………………… 37 
 2.7.1.4 Aprendizaje reforzado ………………………………………….……..… 37 
 2.7.2 Algoritmo de retropropagación …………………………………….…………. 37 
 2.7.3 Fase de recuerdo o ejecución ……………………………………….….….… 39 
 2.8 Clasificación de los modelos neuronales …………………………..….………….. 40 
 2.9 Desarrollo de un modelo RNA …………………………………………...………… 41 
 2.9.1 Selección del algoritmo de aprendizaje ………………………………...…… 41 
 2.9.2 Selección de las funciones de error y transferencia ………………….……. 42 
 2.9.2.1 Funciones de error ……………………………………………….…..….. 42 
 2.9.2.2 Funciones de transferencia ……………………………………….……. 42 
 2.9.3 Aspectos importantes en la predicción con RNA ……………….………….. 44 
 
 
Capítulo 3. Redes neuronales aplicadas a las series de tiempo financieras …………. 46 
 
 3.1 Generalidades ……………………………………………………………...….…….. 46 
 3.2 Sistemas tradicionales …………………………………………….…………….….. 47 
 3.3 RNA como modelo no lineal …………………………………………………….….. 48 
 3.4 Modelos paramétricos y no paramétricos …………………………………………49 
 
ii 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 3.5 Modelos auto regresivos no lineales …………………………………………….… 49 
 3.6 Modelos de promedio móvil …………………………………………….………….. 51 
 3.7 Algunas aplicaciones de redes neuronales a las series de tiempo …….……… 53 
 
 
Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la metodología 
ARIMA ...………………………………………………………………………………………. 55 
 
Capítulo 4. Metodología para pronósticos mediante modelos ARIMA y RNA ……...… 56 
 
 4.1 Metodología para pronósticos mediante modelos ARIMA ……………..……….. 56 
 4.1.1 Análisis exploratorio de la serie ………………………………………....…… 56 
 4.1.2 Identificación del modelo ……………………………………...……...…….… 56 
 4.1.3 Estimación de parámetros ……………………………………………….…… 56 
 4.1.4 Verificación de diagnóstico ………………………………….…………...…… 57 
 4.1.5 Pronóstico ………………………………….……………….…………......…… 57 
 4.2 Metodología para predicción mediante RNA …………………………………..…. 57 
 4.2.1 Selección de variables ……………………………….…...………………..… 57 
 4.2.2 Recolección de datos ………………………………………………….……… 58 
 4.2.3 Pre procesamiento de datos ………………………………….…....………… 58 
 4.2.4 Conjuntos de entrenamiento y prueba ……………………….……………… 59 
 4.2.5 Parámetros de las RNA .……….…………………………………...………… 59 
 4.2.5.1 Número de capas ocultas ………………...…………………………….. 59 
 4.2.5.2 Número de neuronas ocultas ……………………………………….….. 60 
 4.2.5.3 Número de neuronas de salida ……………………………………..….. 61 
 4.2.5.4 Función de transferencia ……………………………………………….. 61 
 4.2.6 Criterio de evaluación ………………………….……………………………… 61 
 4.2.7 Entrenamiento de la red …………………………….………………………… 61 
 4.2.7.1 Número de iteraciones de entrenamiento ……………………….……. 61 
 4.2.7.2 Tasa de aprendizaje y momento ………………………………………. 62 
 4.2.8 Implementación .……………………………………………………………..… 63 
 
 
Capítulo 5. Desarrollo y análisis de resultados ………………………………...………… 64 
 
 5.1 Datos …………………………………………………………………………..……… 64 
 5.2 Obtención del modelo ARIMA para la serie MexDer Cete Dc08 ………….…… 64 
 5.2.1 Análisis exploratorio de la serie ……………………………………………… 65 
 5.2.2 Identificación del modelo ……………………………………………………… 66 
 5.2.2.1 Selección del conjunto de estimación …….............................………. 66 
 5.2.2.2 Estudio de la estacionariedad …….....................…….............………. 66 
 5.2.2.3 Determinación de la función de auto correlación y la función de auto... 
 correlación parcial de la serie estacionaria ….....……............………. 68 
 5.2.2.4 Determinación del componente autorregresivo p y promedio móvil q 69 
 5.2.2.5 Especificación del modelo ARIMA identificado ……...............………. 70 
 5.2.3 Estimación de parámetros ……......................................................………. 70 
 5.2.4 Verificación de diagnóstico …….....................................................………. 70 
 
iii 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 5.2.4.1 Contraste de validez del modelo ……....................................………. 72 
 5.2.5 Pronóstico ……...............................................................................………. 73 
 5.3 Obtención del modelo RNA para la serie MexDer Cete Dc08 …..……………… 74 
 5.3.1 Selección de variables …………………………………………………..……. 74 
 5.3.2 Recolección de datos …………………………………………………….…… 75 
 5.3.3 Pre-procesamiento de datos ………………………………….……………… 76 
 5.3.4 Conjuntos de entrenamiento y prueba …………………………..………….. 76 
 5.3.5 Parámetros de la RNA ……………..……………………………….………… 77 
 5.3.5.1 Número de capas ocultas ……….…………………..………………….. 77 
 5.3.5.2 Número de neuronas en la capa oculta …………………….…………. 77 
 5.3.5.3 Número de neuronas de salida ………………………………………… 78 
 5.3.5.4 Función de transferencia ……………….…………...………………….. 78 
 5.3.6 Criterio de evaluación …………………………………………………………. 78 
 5.3.7 Entrenamiento de la red ………………………………………………………. 78 
 5.3.7.1 Número de iteraciones de entrenamiento …………………………….. 79 
 5.3.7.2 Tasa de aprendizaje y momento …………………...………………….. 79 
 5.3.8 Implementación ………………………………………………...……………… 80 
 5.4 Resultados obtenidos ………………………………………..……………………… 81 
 5.4.1 Resultados obtenidos por medio del modelo ARIMA ………..……………. 81 
 5.4.2 Resultados obtenidos por medio del modelo RNA ..…………………...….. 82 
 5.4.3 Características de las series pronosticadas por ARIMA y RNA ………….. 83 
 5.5 Pruebas de hipótesis ……………………………………………………..…………. 85 
 5.5.1 Descripción de variables …………………………………………..………….. 86 
 5.5.2 Pruebas de hipótesis específicas de los modelos dentro de muestra …... 86 
 5.5.2.1 Coeficiente de determinación …………………………..………………. 86 
 5.5.2.2 Criterio de información de Akaike ……………………………………… 87 
 5.5.2.3 Criterio de información de Schwarz ……………………………….…... 88 
 5.5.3 Pruebas de hipótesis específicas de los modelos fuera de muestra …….. 89 
 5.5.3.1 Raíz del Error Cuadrático Medio ………………………………………. 89 
 5.5.3.2 Error Medio Absoluto Porcentual ………………………………………. 89 
 5.5.3.3 Coeficiente de desigualdad de Theil …………………………………... 90 
 
 
Capítulo 6. Conclusiones y propuestas para futuras investigaciones …………….…… 92 
 
 
Capítulo 7. Referencias ……………………………………………………………...……… 94 
 
 
Apéndices ……………………………………………………………………….…..……… 102 
 
Apéndice A Equivalencias entre la literatura estadística y la literatura RNA ……….. 102 
Apéndice B Datos de cierre del futuro del Cete CT91D-dc08 en el MexDer ……..… 103 
 
 
 
 
iv 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
Índice de tablas y figuras ……………………………………………………...……………… v
 
 
Tabla 1.1 Patrones teóricos de FAC y FACP ..……..…….. ……………………………… 8 
Tabla 2.1 Aspectos generales del trabajo con RNA en predicciones ………….……… 44 
Tabla 5.1 Pesos entre la capa de entrada y la capa oculta de la RNA estimada ….… 80 
Tabla 5.2 Pesos entre la capa oculta y la capa de salida de la RNA estimada ……… 81 
Tabla 5.3 Características de la series pronosticadas del Cete en el MexDer …….…. 85 
Tabla 5.4 Características de la series pronosticadas del Cete, primeros 60 días ..…. 85 
 
Figura 2.1 Modelo de una neurona artificial .….……………………………..……...…… 19 
Figura 2.2 Funciones de activación comunes …………………………………….…...… 23 
Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica …….…… 26 
Figura 2.4 Red neuronal de dos capas ……………………………………………...…… 29 
Figura 2.5 Red neuronal multicapa …………………………………………………….…. 30 
Figura 2.6 Ejemplo para demostrar las ventajas de las capas ocultas …………….…. 31 
Figura 2.7 Efecto del sobreentrenamiento …………………………………………….…. 35 
Figura 2.8 Clasificación de modelos de RNA por tipo de aprendizaje y arquitectura .. 41 
Figura 2.9 Comparación de las funciones de transferencia sigmoidea …………….… 43 
Figura 2.10 Esquema de trabajo con RNA ………………………….…………………… 45 
Figura 3.1 Red neuronal unidireccional como modelo AR no lineal ………………..…. 51 
Figura 3.2 Red neuronal conformando un modelo ARMA no lineal …….…………….. 52 
Figura 4.1 Gráficas del comportamiento de los errores en una RNA ……………..….. 62 
Figura 5.1 Gráfica del Cete 91d, Dc08 en el MexDer …………………………...……… 65 
Figura 5.2 Gráficade la serie del rendimiento logarítmico (RCT) ………………...…… 66 
Figura 5.3 Correlograma de la serie del futuro del Cete suavizada, en niveles …...… 68 
Figura 5.4 Correlograma de la serie RCT ………………………………………….…….. 69 
Figura 5.5 Correlograma de los residuos del modelo ARIMA estimado …....………… 72 
Figura 5.6 Pronóstico realizado mediante el modelo ARIMA sobre la serie RCT …… 74 
Figura 5.7 Arquitectura de la RNA que proporciona los mejores resultados …………. 80 
Figura 5.8 Pronóstico realizado mediante el modelo RNA sobre la serie RCT …….... 81 
Figura 5.9 Pronóstico realizado mediante el modelo ARIMA en niveles ………….….. 82 
Figura 5.10 Pronóstico realizado mediante el modelo RNA en niveles ……………..... 83 
Figura 5.11 Comparación entre ajustes mediante ARIMA y RNA, en niveles ……...... 84 
Figura 5.12 Comparación entre pronósticos mediante ARIMA y RNA, en niveles ...... 84 
 
 
 
 
 
 
 
 
 
v 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 
 
 
 
 
 
 
 
Resumen 
 
 
 
 
El objetivo de esta tesis es proponer un modelo que permita pronosticar la tendencia de 
la serie del futuro del Cete de 91 días en el MexDer con vencimiento en diciembre de 
2008, aplicando redes neuronales y series de tiempo, y comparar los pronósticos 
obtenidos de esta forma con los que se obtendrían con un modelo ARIMA tradicional, 
con el fin de conocer que modelo ajusta mejor los datos dentro de muestra y que 
modelo pronostica mejor los datos fuera de muestra. 
 
La principal aportación es demostrar que el modelo propuesto basado en redes 
neuronales es capaz de obtener buenas aproximaciones tanto en el ajuste como en el 
pronóstico, además de observar que, en este caso en particular, la aproximación 
resulta mejor que la generada por medio de la metodología ARIMA. Así también, la 
tesis contiene una propuesta metodológica para la aplicación de las redes neuronales a 
las series de tiempo financieras. 
 
Este trabajo se divide en dos partes: Parte I, Marco teórico. Series de tiempo y 
redes neuronales, en donde se establecen las bases teóricas para el desarrollo de la 
tesis. Parte II. Desarrollo y aplicación del modelo propuesto y, comparación con la 
metodología ARIMA, en la cual se muestran las hipótesis de la investigación, su 
desarrollo y los resultados obtenidos, a partir de los cuales se presentan las 
conclusiones y algunas propuestas para futuras investigaciones. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vi 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 
 
 
Introducción 
 
 
La importancia de saber el comportamiento de determinado activo financiero o 
instrumento derivado en un futuro permite tomar previsiones para evitar tomar riesgos 
innecesarios o tener la oportunidad de obtener mayores beneficios que la mayoría de 
las personas no puede aprovechar. 
 
Las técnicas de pronóstico de series de tiempo por los métodos estadísticos 
tradicionales permiten llevar a cabo esta labor como, por ejemplo, por medio de la 
metodología Box-Jenkins, la cual permite obtener buenas aproximaciones en el caso 
de que dicho método sea bien aplicado, ya que ésta metodología tiene una parte de 
arte en el sentido de que el proceso es iterativo hasta alcanzar el mejor modelo de 
acuerdo a la experiencia del investigador. 
 
Existen en general dos grupos de modelos propuestos para pronosticar series de 
tiempo aplicadas a las finanzas, por un lado, los modelos estadísticos tradicionales 
como los modelos ARIMA, los modelos GARCH y los mixtos, y por otro, los modelos 
basados en áreas nuevas como la inteligencia artificial, las redes neuronales y los 
algoritmos genéticos. 
 
Mediante el uso de redes neuronales artificiales es posible realizar predicciones 
sobre el comportamiento de series financieras, en este caso, para pronosticar la 
tendencia del futuro del Cete de 91 días en el MexDer. De acuerdo a la mayor parte de 
la literatura existente, se espera un mejor desempeño de las RNA en comparación con 
un modelo ARIMA utilizado como referencia, ya que las redes neuronales son capaces 
de identificar relaciones no lineales, las cuales, como se ha demostrado en algunos 
estudios, existen en los mercados financieros. 
 
Resulta muy recomendable también, saber cuáles son las virtudes de cada una 
de las técnicas disponibles, por lo que en este trabajo se presentan las fortalezas y 
debilidades del modelo que emplea RNA como instrumento de predicción aplicado a 
series de tiempo financieras. 
 
 
a. Planteamiento del problema 
 
La predicción de series de tiempo financieras ha adquirido gran atención dentro de las 
investigaciones empíricas, tanto que los econometristas han empezado a dedicar 
mayores esfuerzos a este tipo de información, tal y como se demuestra con el número 
de artículos publicados en la materia. 
 
Una de las técnicas estadísticas tradicionales empleadas frecuentemente en el 
pronóstico de series de tiempo es la metodología Box-Jenkins, la cual permite obtener 
 
vii 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
buenas aproximaciones cuando se aplica a series de tiempo estacionarias o que 
pueden convertirse en estacionarias mediante la transformación o transformaciones 
adecuadas. 
 
Hasta ahora no se tiene conocimiento de la aplicación de un modelo similar al 
mercado mexicano de derivados desde un enfoque de series de tiempo, las propuestas 
en trabajos de tesis se han enfocado al aprendizaje de las redes utilizando las variables 
de entrada con las cuales se calcularía el valor de una opción, por ejemplo, por medio 
de la fórmula Black y Scholes (Pérez, 1998), por lo que esta tesis pretende determinar 
la factibilidad de emplear redes neuronales en la predicción de la serie del futuro del 
Cete en el MexDer. 
 
La pregunta general es: 
 
¿Es posible generar un modelo basado en redes neuronales capaz de ajustar y 
predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el 
MexDer, así como mejorar los resultados obtenidos por medio de un modelo ARIMA 
utilizado como referencia? 
 
A partir de la cual se plantean las siguientes preguntas específicas: 
 
- ¿El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro 
de muestra que el modelo ARIMA usado como referencia? 
 
- ¿El modelo propuesto basado en redes neuronales pronostica mejor los datos 
fuera de muestra que el modelo ARIMA usado como referencia? 
 
 
b. Hipótesis 
 
Hipótesis general: 
 
Un modelo basado en redes neuronales es capaz de ajustar y predecir la tendencia de 
los datos de la serie de tiempo del futuro del Cete en el MexDer, así como también 
mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como 
referencia. 
 
A partir de la cual se plantean las siguientes hipótesis específicas: 
 
- El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro 
de muestra que el modelo ARIMA usado como referencia. 
 
- El modelo propuesto basado en redes neuronales pronostica mejor los datos 
fuera de muestra que el modelo ARIMA usado como referencia. 
 
 
 
 
viii 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 
 
c. Objetivos 
 
c.1 Objetivo general: 
 
Desarrollar un modelo basado en redes neuronales capaz de ajustar y predecir la 
tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como 
también realizar un análisis comparativo con un modelo ARIMA utilizado como 
referencia para determinar que modelo proporciona los mejores resultados. 
 
c.2 Objetivos específicos: 
 
- Determinar si el modelo propuesto basadoen redes neuronales ajusta mejor los 
datos dentro de muestra que el modelo ARIMA usado como referencia por 
medio de criterios estadísticos. 
 
- Determinar si el modelo propuesto basado en redes neuronales pronostica mejor 
los datos fuera de muestra que el modelo ARIMA usado como referencia por 
medio de criterios estadísticos. 
 
 
d. Justificación 
 
La intención de esta tesis es mostrar la capacidad de las RNA de realizar pronósticos 
en series de tiempo financieras, en particular sobre la serie del futuro del Cete en el 
MexDer, como una herramienta alterna a las técnicas estadísticas tradicionales como la 
metodología ARIMA, además de explicar de manera clara y sencilla -pero sin perder de 
vista la rigurosidad matemática que involucran este tipo de temas-, el funcionamiento 
de una RNA. 
 
El estudio propuesto no está diseñado para aquellas personas o empresas que 
se dedican de manera profesional a la inversión de valores, sino para aquellos 
inversionistas inquietos que deseen intentar una nueva forma de valuar instrumentos 
financieros con mayor precisión y poder subsanar de este modo la desventaja que 
presenta el no contar con todo un equipo de expertos en finanzas para poder 
determinar si el precio de determinado instrumento es el adecuado o no, basado en 
tecnologías que han demostrado su efectividad en otras disciplinas y que ahora se 
aplican a un sistema aparentemente caótico, pero a la vez con cierto orden como lo es 
el mercado de derivados. 
 
Existen pocos estudios realizados por medio de redes neuronales relacionados 
al presente, y los que existen son aplicados sobre todo a mercados de países 
desarrollados, por lo que se pretende que este estudio pueda aplicarse a distintas 
series de tiempo existentes en el MexDer, incrementando con ello el abanico de 
posibilidades que cualquier persona debe poseer para poder tomar las mejores 
decisiones. Es por esta razón que esta investigación se considera novedosa. 
 
ix 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 
Por todo lo anterior, existe la necesidad de desarrollar un marco conceptual que 
permita fundamentar la propuesta metodológica de la presente tesis, y elaborar una 
investigación empírica con el fin de comprobar las hipótesis planteadas. 
 
 
e. Tipo de investigación 
 
Dado que no es posible realizar la manipulación de los datos de manera arbitraria en 
cuanto a sus valores, puesto que éstos son fijos dado que son los precios históricos de 
la serie de tiempo del futuro del Cete en el MexDer, este estudio no es experimental. 
Además, como el objeto de estudio es una serie de tiempo, el análisis será en 
consecuencia longitudinal. Inherentemente este estudio es diacrónico puesto que se 
usan los datos históricos, mismos que se emplean para predecir los valores de la serie 
en el tiempo t+1. 
 
 Los datos considerados son los precios históricos del futuro de la serie del Cete 
a 91 días que cotiza en el MexDer, debido a que se quiere mostrar la aplicación de las 
redes neuronales artificiales al mercado mexicano. Se consideran los precios dentro del 
periodo del 1 de noviembre de 2002 al 12 de abril de 2007. 
 
Se pasará entonces por la etapa correlacional, donde se explicará la relación de 
las diversas variables involucradas en la investigación para finalmente emitir 
conclusiones con respecto a la mejor técnica para realizar ajustes y predicciones dentro 
y fuera de muestra respectivamente, así como la complejidad, ventajas y limitaciones 
de la metodología propuesta. 
 
 
f. Breve contenido de la tesis 
 
La tesis comienza con una introducción en donde se presenta un panorama general del 
tema, se plantea el problema, se proponen hipótesis, se dan a conocer los objetivos, se 
justifica la investigación, se establece el tipo de investigación y se describe brevemente 
su contenido. La tesis se divide en dos partes principales: la primera trata acerca de las 
bases teóricas de las series de tiempo y de las redes neuronales, y la segunda parte 
utiliza el marco teórico para desarrollar los modelos ARIMA y RNA en el ajuste y 
predicción de series de tiempo financieras. 
 
Parte I. Marco teórico. Series de tiempo y redes neuronales, en la cual se 
establecen las bases teóricas para el desarrollo de la investigación, presentando los 
aspectos relevantes de dichos temas, sus propiedades, aplicaciones, utilidad, 
complejidad y su poderoso alcance en el área de las finanzas. 
 
En el primer capítulo se revisan los conceptos de las series de tiempo, procesos 
estocásticos, estacionarios, modelos ARIMA, funciones de auto correlación, tipos de 
datos empleados en pronósticos y métodos clásicos para el tratamiento de series 
financieras. 
 
x 
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer 
 
El segundo capítulo incluye la teoría y operación de las redes neuronales, así 
como el modelo general, la arquitectura, los modos de operación, la clasificación de los 
modelos y los pasos generales en el desarrollo de un modelo con RNA. 
 
El tercer capítulo relaciona los primeros dos capítulos por medio de la revisión de 
la literatura en la cual las redes neuronales son aplicadas al pronóstico de series de 
tiempo financieras, incluyendo el estudio de los sistemas tradicionales, los modelos 
lineales y no lineales, los paramétricos y no paramétricos, los modelos autorregresivos 
no lineales, que serán la base del modelo propuesto con RNA, así como la descripción 
de algunas aplicaciones seleccionadas de las RNA a las finanzas. 
 
Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la 
metodología ARIMA. En esta parte se aplica tanto la metodología ARIMA como la de 
RNA, se realiza un estudio comparativo de los resultados obtenidos y se emiten las 
conclusiones respectivas así como también algunas propuestas para investigaciones 
futuras. 
 
El capítulo cuarto trata acerca de la metodología para pronósticos mediante 
modelos ARIMA y RNA, en donde se explica a detalle la metodología a seguir para 
realizar pronósticos mediante modelos ARIMA, como son, el análisis exploratorio de la 
serie, la identificación del modelo, la estimación de parámetros, la verificación de 
diagnóstico así como el pronóstico respectivo. También se proporciona la metodología 
para predicción mediante RNA, la cual incluye, la selección de variables, la colección 
de datos, el preprocesamiento de datos, los conjuntos de entrenamiento y prueba, los 
paradigmas de las RNA, el criterio de evaluación, el entrenamiento de la red y la 
implementación respectiva. 
 
En el capítulo quinto se realiza el desarrollo y el análisis de resultados, 
abarcando la descripción de los datos, la obtención del modelo ARIMA, la obtención del 
modelo RNA, los resultados obtenidos y las pruebas de hipótesis específicas 
planteadas al inicio de la tesis. 
 
En el capítulo sexto se presentan las conclusiones obtenidas a través del 
desarrollo de la tesis, así como algunas propuestas para el desarrollo de futuras 
investigaciones afines al tema. 
 
Finalmente se proporciona la bibliografía empleada así como los apéndices 
referidos en el texto y la base de datos utilizada. 
 
 
xi 
Capítulo 1: Series de tiempo 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Parte I. 
 
Marco teórico 
 
Series de tiempo y redes neuronales 
 
 
 
 
 
En esta parte se establecen las bases teóricas para el desarrollo de la tesis, 
incluyendo también la revisión de la literatura relacionada con la aplicación de las 
RNA en la predicción de series de tiempo financieras. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1 
Capítulo 1: Series de tiempo 
 
 
 
Capítulo 1 
 
Series de tiempo 
 
 
1.1Generalidades 
 
Una serie de tiempo es una secuencia cronológica de observaciones de una 
variable en particular (Bowerman y O’Connel, 1993). 
 
En términos formales, una serie de tiempo se define como una secuencia de 
vectores, dependientes del tiempo transcurrido t: 
 
)(tx 
donde t = 0, 1, 2, … 
 
Teóricamente, x se puede ver como una función continua de la variable de 
tiempo t. Sin embargo, para cuestiones prácticas, el tiempo generalmente se ve en 
términos de pasos de tiempo discretos, conduciendo a una instancia de x en cada 
punto de un intervalo de tiempo, generalmente de tamaño fijo (Dorffner, 1996). 
 
De acuerdo a Chatfield (1978), son varios los objetivos por los cuales se 
desea analizar una serie de tiempo: 
 
- Descripción: Al tener una serie de tiempo, el primer paso en el análisis es 
graficar los datos y obtener medidas descriptivas simples de las propiedades 
principales de la serie. 
 
- Explicación: Cuando las observaciones son tomadas sobre dos o más 
variables, es posible usar la variación en una serie para explicar la variación 
en las otras series. 
 
- Predicción: Dada una serie de tiempo se intenta predecir los valores futuros 
de la serie. Este es el objetivo más frecuente en el análisis de series de 
tiempo. 
 
- Control: Si una serie de tiempo se genera por mediciones de calidad de un 
proceso, el objetivo del análisis puede ser el control del proceso. 
 
Una serie de tiempo generalmente se examina con la intención de descubrir 
patrones históricos que puedan ser útiles en la predicción. Para identificar esos 
patrones es conveniente pensar que una serie de tiempo consiste de varios 
componentes: 
 
 
2 
Capítulo 1: Series de tiempo 
 
 
- Tendencia. Una serie de tiempo tiene tendencia cuando por largos periodos 
los valores crecen o disminuyen consistentemente. También puede definirse 
como cambios en la media. 
 
- Ciclos. Se refiere a movimientos hacia arriba o hacia abajo alrededor del 
nivel de la tendencia. Estas fluctuaciones, medidas de pico a pico, pueden 
tener una duración larga. 
 
- Variaciones estacionales. Son patrones históricos que ocurren y se repiten 
cada determinado tiempo, por ejemplo, anualmente. Estas variaciones son 
causadas típicamente por factores como el clima y las costumbres. 
 
- Fluctuaciones irregulares. Son movimientos irregulares en una serie de 
tiempo que no siguen un patrón regular, ni reconocible. Tales movimientos 
representan “lo que queda” en una serie de tiempo después de que la 
tendencia, ciclos y variaciones estacionales han sido explicados. 
 
 
Pueden obtenerse valores futuros de una serie de tiempo observada 
mediante una gran cantidad de métodos de predicción. Estos métodos pueden 
clasificarse fundamentalmente en tres grupos: 
 
- Subjetivos. Las predicciones se hacen sobre bases subjetivas usando el 
criterio, la intuición, el conocimiento en el área y otra información relevante. 
Entre estos métodos se encuentran: Ajuste de una curva subjetiva, el método 
Delphi1 y comparaciones tecnológicas en tiempo independiente. 
 
- Univariados. Con este tipo de métodos se obtienen valores futuros de la serie 
basándose en el análisis de sus valores pasados, se intenta conseguir un 
patrón en estos datos, se asume que este patrón continuará en el futuro y se 
extrapola para conseguir predicciones. Son muchos los métodos que encajan 
en esta categoría, entre estos se encuentran: Extrapolación de curvas de 
tendencia, suavización exponencial, método de Holt-Winters2 y método de 
Box-Jenkins (ARIMA). Este último es un método ampliamente utilizado. 
 
- Causales o multivariados. Involucran la identificación de otras variables que 
están relacionadas con la variable a predecir. Una vez que esas variables 
han sido identificadas, se desarrolla un modelo estadístico que describe la 
relación entre esas variables y la variable a pronosticar. Entre estos métodos 
 
1 El método Delphi pretende extraer y maximizar las ventajas que presentan los métodos basados en grupos de 
expertos y minimizar sus inconvenientes. Para ello se aprovecha la sinergia del debate en el grupo y se eliminan 
las interacciones sociales indeseables que existen dentro de todo grupo. De esta forma se espera obtener un 
consenso lo más fiable posible del grupo de expertos. 
2 El modelo de Holt-Winters es una ampliación perfeccionada del suavizamiento exponencial. 
 
3 
Capítulo 1: Series de tiempo 
 
 
se pueden identificar: Regresión múltiple, modelos econométricos y métodos 
de Box y Jenkins (Modelo de función de transferencia3). 
 
 
1.2 Algunos conceptos de las series de tiempo 
 
1.2.1 Proceso estocástico 
 
Un proceso estocástico4 o aleatorio es una colección de variables aleatorias 
ordenadas en el tiempo. Si Y denota una variable aleatoria y continua, se denota 
como Y(t), pero si es discreta se expresa como Yt. 
 
 
1.2.2 Proceso estacionario 
 
Un proceso estocástico es estacionario si su media y su varianza son constantes en 
el tiempo y si el valor de la covarianza entre dos periodos depende solamente de la 
distancia o rezago entre estos dos periodos de tiempo y no del tiempo en el cual se 
ha calculado la covarianza. En otras palabras, una serie de tiempo no estacionaria 
tendrá una media que varía con el tiempo o una varianza que cambia con el tiempo 
o ambas (Gujarati, 2004). 
 
 
1.2.3 Proceso puramente aleatorio 
 
Un proceso puramente aleatorio es un tipo especial de proceso estocástico que 
tiene una media igual a cero, una varianza constante σ2 y no esta serialmente 
correlacionada5. 
 
 
1.2.4 Caminata aleatoria 
 
Es una serie de tiempo estocástica en la que cada cambio sucesivo en Yt, 
expresado como ut es extraído en forma independiente de una distribución de 
probabilidad con media 0 y varianza σ2 (Pindick y Rubinfeld, 2001). Por lo tanto, Yt 
está determinada por: 
 
Yt = Yt-1 + ut
 
 
 
 
 
3 Este modelo es una extensión del modelo ARIMA, también conocido como modelo de promedio 
autorregresivo móvil multivariado (MARMA). 
4 El término “estocástico” proviene de la raíz griega “stokhos” que significa blanco y, hace alusión a la forma 
aleatoria en que se distribuyen los proyectiles lanzados contra un blanco. 
5 Si también es independiente, dicho proceso se conoce estrictamente como ruido blanco. 
 
4 
Capítulo 1: Series de tiempo 
 
 
1.2.5 Procesos estocásticos integrados 
 
El modelo de caminata aleatoria es un caso específico de una clase más general de 
procesos estocásticos conocidos como procesos integrados. Se puede demostrar 
de manera sencilla que la primera diferencia del modelo de caminata aleatoria es 
estacionaria. Si expresamos la caminata aleatoria como: 
 
(Yt – Yt-1) = ΔYt = ut
 
Resulta fácil probar que mientras Yt no es estacionaria, su primera diferencia 
si lo es, ya que por definición ut tiene media constante cero y una varianza de σ2. 
 
Por tanto, se llama al modelo de caminata aleatoria sin variaciones proceso 
integrado de orden 1 y se denota como I(1). De manera similar, si una serie de 
tiempo tiene que diferenciarse dos veces para hacerla estacionaria, se llamará a 
esa serie de tiempo integrada de orden 2 ó I(2). 
 
En consecuencia, para convertir una serie no estacionaria en estacionaria se 
toman tantas diferencias como sea necesario, y se dice que el número de 
diferencias que se requiere para alcanzar la estacionariedad es el orden de 
integración de la serie. 
 
 
1.2.6 Prueba de raíz unitaria 
 
Es una prueba para determinar la estacionariedad o no estacionariedad de una 
serie de tiempo. 
 
Si se considera la siguiente serie: 
 
Yt = ρYt-1 + ut
donde -1 ≤ ρ ≤ 1 
 
Si ρ = 1, como se demostró anteriormente, elproceso no es estacionario. De 
esta manera, si se realiza la regresión de Yt sobre Yt-1 y se determina que la ρ es 
estadísticamente igual a 1, se concluiría que Yt no es estacionaria. 
 
Ahora, al diferenciar la serie se tiene la siguiente ecuación: 
 
Yt – Yt-1 = ρYt-1 – Yt-1 + ut
 
o expresándola de otra manera: 
 
ΔYt = δYt-1 + ut
 
donde δ = ρ - 1 
 
 
5 
Capítulo 1: Series de tiempo 
 
 
Si δ = 0, entonces ρ = 1 y se dice que tiene una raíz unitaria, lo cual significa 
que la serie de tiempo bajo estudio no es estacionaria, pero al mismo tiempo ΔYt = 
ut. En consecuencia al tomar las primeras diferencias de la serie se obtiene una 
estacionaria. 
 
Para saber si δ = 0, la mayoría de los estudios aplican pruebas de raíces 
unitarias introducidas por Dickey y Fuller (1979) conocidas como DF o DFA 
(Dickey-Fuller aumentada), las cuales vienen integradas en la mayoría de los 
paquetes econométricos actuales. 
 
 
1.3 Modelos ARIMA 
 
Box y Jenkins (1978) propusieron un modelo novedoso para la predicción de series 
de tiempo. Popularmente es conocida como metodología Box-Jenkins aunque 
técnicamente se conoce como metodología ARIMA, en la que se analizan las 
propiedades probabilísticas o estocásticas de las series de tiempo económicas bajo 
la filosofía de “permitir que la información hable por sí misma”. 
 
 
1.3.1 Proceso autorregresivo (AR) 
 
En el proceso autorregresivo de orden p la observación actual Yt es generada por 
un promedio ponderado de observaciones pasadas que se remontan p periodos, 
junto con una perturbación aleatoria en el periodo actual. Se denota este proceso 
como AR(p) y la ecuación que lo describe es: 
 
tptpttt uYYYY +++++= −−− δααα ...2211 
 
Donde δ es un término constante que se relaciona con la media del proceso 
estocástico. 
 
Es interesante observar que el modelo anterior solamente considera los 
valores actuales y anteriores de Yt, no hay otros regresores. 
 
 
1.3.2 Proceso de media móvil (MA) 
 
En el proceso de media móvil de orden q cada observación Yt es generada por un 
promedio ponderado de perturbaciones aleatorias que se remontan q periodos. Se 
denota este proceso como MA(q) y su ecuación respectiva es: 
 
qtqtttt uuuuY −−− +++++= ββββμ ...22110 
Donde μ = E(Yt). 
 
 
6 
Capítulo 1: Series de tiempo 
 
 
El modelo de media móvil supone que las perturbaciones aleatorias están 
distribuidas en forma independiente a lo largo del tiempo, es decir, son generadas 
por un proceso de ruido blanco. 
 
 
1.3.3 Proceso autorregresivo y de media móvil (ARMA) 
 
Muchos procesos aleatorios estacionarios no pueden modelarse como 
autorregresivos puros o de medias móviles puras, ya que tienen cualidades de 
ambos tipos de procesos. De esta forma, se puede concebir un modelo mixto 
autorregresivo de media móvil de orden (p, q). Se denota este proceso como ARMA 
(p, q) y se representa por medio de la ecuación: 
 
qtqttptptt uuuYYY −−−− +++++++= ββδαα ...... 1111 
 
Además, las series de tiempo económicas generalmente no son 
estacionarias, es decir, son integradas, razón por la cual si agregamos el concepto 
de integración explicado anteriormente, de manera que se tenga que diferenciar una 
serie de tiempo d veces para hacerla estacionaria y luego aplicar a esta el modelo 
ARMA(p, q) se dice que la serie de tiempo original es del tipo ARIMA(p, d, q), es 
decir, es una serie de tiempo autorregresiva integrada de media móvil. 
 
 
1.4 Caracterización de las series de tiempo: función de autocorrelación 
 
Existen dos funciones importantes en el análisis de series de tiempo a partir de las 
cuales es posible extraer los parámetros del proceso ARMA. De acuerdo con Box y 
Jenkins, éstas son la función de autocorrelación de la muestra y la función de 
autocorrelación parcial. La apariencia de cada una de estas funciones da una 
indicación de la naturaleza del proceso bajo estudio y, en teoría, la tarea de 
identificar el modelo y de obtener sus parámetros se puede llevar a cabo con base 
en ellas. 
 
 
1.4.1 Función de autocorrelación 
 
Dada una muestra Y0, Y1, …, Yn-1 de n observaciones, la función de autocorrelación 
muestral (FAC) de la muestra al rezago k, denotada por ρk, se define como: 
 
 0 para 
1-n ..., 1, k para 
1
 
ˆ 0 =
=
⎪⎩
⎪
⎨
⎧
=
k
k
k γ
γ
ρ 
 
donde: 
 
γ0 es la varianza de la muestra dada por: 
 
7 
Capítulo 1: Series de tiempo 
 
 
 
( )∑
=
−=
n
t
t YYn 1
2
0
1γ 
 
γk es la covarianza al rezago k definida como: 
 
( )( )∑
−
=
+ −−=
kn
t
kttk YYYYn 1
1γ 
 
La función de autocorrelación indica cuánta correlación existe entre datos 
individuales contiguos en la serie Yt (Pindick, op. cit. p. 520). Conforme el valor del 
retraso aumenta, el número de observaciones comprendidas en la autocovarianza 
disminuye hasta el elemento final. Al graficar ρk frente a k, la gráfica obtenida se 
conoce como correlograma. 
 
Cuando se grafica ρk se debe omitir el valor ρ0 el cual es invariablemente 1. 
Además, al interpretar la gráfica se debe tener cuidado de dar demasiada 
importancia a correlaciones en valores de retrasos que están significativamente 
altos en relación con el tamaño de la muestra. 
 
 
1.4.2 Función de autocorrelación parcial 
 
La función de autocorrelación parcial (FACP) de la muestra ρkk en el retraso k es la 
correlación entre observaciones (series de tiempo) que están separadas k periodos 
de tiempo, manteniendo constantes las correlaciones en los rezagos intermedios 
(es decir rezagos menores de k). En otras palabras, la autocorrelación parcial es la 
correlación entre Yt y Yt-k después de eliminar el efecto de las Y intermedias. 
 
En la tabla 1.1 se dan algunos lineamientos generales acerca de los patrones 
típicos de las funciones de correlaciones muestral y parcial (Gujarati, op. cit., p. 
818). 
 
 
Tipo de 
modelo 
Patrón típico de FAC Patrón típico de FACP 
AR(p) Disminuye exponencialmente 
o con un patrón sinusoidal 
decreciente o ambos 
Picos grandes a lo largo de 
los p rezagos 
MA(q) Picos grandes a lo largo de 
los q rezagos 
Decrece exponencialmente 
ARMA(p, q) Decrece exponencialmente Decrece exponencialmente 
 
Tabla 1.1 Patrones teóricos de FAC y FACP 
 
 
 
 
8 
Capítulo 1: Series de tiempo 
 
 
1.5 Propiedades de las series de tiempo financieras 
 
La predicción de series de tiempo financieras es una tarea altamente complicada 
debido a las siguientes razones: 
- Las series de tiempo financieras se comportan casi como un proceso de 
caminata aleatoria, impidiendo desde un punto de vista teórico la predicción 
(Hellström y Holmström, 1998). La predicción de las series de tiempo más 
comunes (precios de acciones, niveles de índices) es un tema controversial 
y ha sido cuestionado en función de la hipótesis de mercados eficientes. 
 
- Las series de tiempo financieras están sujetas al cambio en el tiempo, por 
ejemplo, las propiedades estadísticas de las series de tiempo son diferentes 
en distintos puntos del tiempo (el proceso de variación en tiempo, Hellström y 
Holmström, ibid.). 
 
- Las series de tiempo financieras son generalmente muy ruidosas, ya que 
existe una gran cantidad de aleatoriedad (impredecible) en las variaciones 
día a día (Magdon-Ismail, et. al., 1998). 
 
- En el largo plazo, una nueva técnica de predicción llega ser parte del proceso 
a ser predicho, por ejemplo, se influencia el proceso en predicción (Hellström 
y Holmström, op. cit.). 
 
 
1.5.1 Hipótesis de los mercados eficientes 
 
La hipótesis de los mercados eficientes o HME fue desarrollada por Fama (1965) y 
ha encontrado una gran aceptación en el medio financiero, Anthony y Biggs (1965), 
Malkiel (1987), Tsibouris (1995), White(1988), Lowe y Webb (1991) y Lawrence et. 
al. (1996). 
 
La hipótesis de los mercados eficientes establece que el precio actual de 
mercado refleja la asimilación de toda la información disponible. Esto significa que 
dada la información, no se pueden hacer predicciones en cambios futuros de 
precios. Conforme nueva información entra al sistema, se descubren 
inmediatamente los ajustes y se eliminan rápidamente corrigiendo el precio de 
mercado. 
 
Dependiendo del tipo de información considerada, existen tres formas de 
HME (Hellström y Holmström, op. cit.): 
 
La forma débil. 
Solamente se consideran los datos de precios pasados. Este tipo de HME elimina 
cualquier forma de predicción basado en los precios solamente, porque los precios 
siguen una caminata aleatoria en la cual, los cambios sucesivos tienen correlación 
cero. 
 
 
9 
Capítulo 1: Series de tiempo 
 
 
La forma semifuerte. 
Se considera toda la información pública disponible. Esta incluye información 
adicional como volúmenes y datos fundamentales como pronósticos de utilidades y 
predicciones de ventas. 
 
La forma fuerte 
Toda la información disponible ya sea pública o privada es considerada. 
 
En años recientes, la HME llegó a ser un asunto controversial debido a varias 
razones. Por una parte, se mostró en algunos estudios que se pueden lograr 
utilidades en exceso usando sólo los datos de precios históricos (Tino, et al, 2000), 
por otra parte es muy difícil de probar la forma fuerte debido a la falta de datos. 
 
Otro argumento razonable en contra de la HME se refiere a las diferentes 
perspectivas de tiempo que tienen los inversionistas cuando hacen negocios. Por 
ejemplo, un accionista mayoritario reaccionará de manera diferente a un vendedor 
de piso cuando el precio de una acción cae repentinamente. Estas perspectivas de 
tiempo causarán anomalías en los precios de mercado aún si no entra información 
nueva al sistema. Puede ser entonces posible identificar estas situaciones y 
eventualmente predecir cambios futuros (Hellström y Holmström, op. cit.). 
 
De manera más frecuente, los argumentos a favor de la HME se refieren a 
las pruebas estadísticas que muestran que no existe calidad predictiva en los 
modelos probados e indicadores técnicos. La mayoría de los argumentos en contra 
de la HME se refieren a un retraso en tiempo entre el punto cuando la nueva 
información entra al sistema y el punto cuando es asimilada. 
 
 
1.6 Datos usados en la predicción de series de tiempo financieras 
 
Existen varios tipos de datos que pueden ser empleados en la predicción de series 
de tiempo, los cuales generalmente son agrupados en dos categorías: datos 
técnicos y datos fundamentales (Hellström y Holmström, op. cit.). 
 
1.6.1 Datos técnicos. 
 
Estos incluyen datos como precios de acciones, volumen, volatilidad, etc. De hecho, 
el término series de tiempo financieras usualmente se refiere a series de tiempo de 
datos técnicos. 
 
Los típicos datos técnicos involucrados en la predicción de series de tiempo 
financieras son: 
 
- yC: precio de cierre; último precio negociado del día. 
 
- yH: precio más alto negociado durante el día 
 
 
10 
Capítulo 1: Series de tiempo 
 
 
- yL: precio más bajo negociado durante el día 
 
- V: volumen total negociado durante el día 
 
Mientras que en la mayoría de los casos se utilizan los datos diarios para 
modelar el comportamiento de precios de acciones, también están disponibles 
algunos datos de negociación intradía. Tales datos son usados en su mayoría no 
para modelar el mercado, sino para determinar el tiempo correcto de la intención de 
negociación en una operación real. 
 
La opción más común de predicción es la serie de tiempo que emplea precios 
de cierre. Esta opción tiene algunas deficiencias, entre ellas: 
 
- Los precios de cierre varían grandemente y hacen difícil crear un modelo 
para un periodo largo de tiempo. 
 
- Los precios de cierre para diferentes acciones pueden diferir grandemente 
sobre varias décadas o incluso años, y por lo tanto, no pueden ser usadas 
como el mismo tipo de entrada en un modelo. 
 
En lugar de modelar precios de cierre, una buena opción en muchos casos 
es usar el rendimiento como tipo de dato. 
 
 
1.6.2 Datos fundamentales 
 
El análisis del valor de una compañía se realiza usualmente por analistas de 
mercado profesionales de manera regular. Sus análisis proporcionan una base para 
evaluar el valor real de la acción de la empresa. Los analistas fundamentales toman 
en consideración los siguientes factores: 
 
- El estado real de la economía medida por la inflación, la tasa de interés, el 
balance comercial, etc. 
 
- La situación de la industria a la cual pertenece la empresa medida por medio 
de: 
 
o Índices de precios de acciones (Dow Jones, DAX, FTSE 100, S&P 
500, IPC, etc). 
o Precios de productos relacionados como el petróleo, metales diversos 
y monedas. 
o El valor de las acciones de la competencia. 
 
- La situación de la compañía medida por: 
 
o La razón precio de la acción dividido entre el rendimiento por acción 
durante los 12 meses anteriores. 
 
11 
Capítulo 1: Series de tiempo 
 
 
o Valor en libros por acción (activos netos divididos entre el número total 
de acciones). 
o Margen de ganancia neta o ingreso neto dividido entre las ventas 
totales. 
o Razón de deuda o deudas divididas entre el total de activos. 
o Pronósticos de ganancias futuras. 
o Pronósticos de ventas futuras. 
 
Además de los anteriores, existen otros tipos que son generados al 
transformar y combinar datos técnicos y/o fundamentales como los siguientes: 
 
 
Rendimientos 
 
El rendimiento a un paso se define como el incremento relativo en el precio anterior 
de la serie de tiempo: 
 
)1(
)1()()(
−
−−
=
ty
tytytR 
 
El rendimiento logarítmico se define como: 
 
)1(
)(log)(
−
=
ty
tytR 
 
Los datos así transformados son muy similares, con cambios pequeños y 
usados muy frecuentemente en la predicción de series de tiempo financieras por las 
siguientes razones: 
 
- R(t) tiene un rango relativamente constante aún si se usan datos de varios 
años como entradas. Los precios de y pueden variar mucho y hacer difícil la 
creación de un modelo válido para un periodo de tiempo grande. 
 
- R(t) para diferentes acciones pueden ser comparadas de igual forma. 
 
- Es fácil de evaluar un algoritmo de predicción para R(t) calculando la 
exactitud de la predicción del signo de R(t). 
 
 
Volatilidad 
 
La volatilidad es sinónimo de la desviación estándar de algún valor (por ejemplo el 
precio de una acción). La volatilidad es una medida del riesgo, pero también de 
posibilidades de ganancias. En las llamadas estrategias de negociación delta-
neutral (para contratos de opciones), la ganancia o pérdida de una operación no 
depende del precio, sino de la volatilidad del precio de la acción respectiva 
 
12 
Capítulo 1: Series de tiempo 
 
 
(Tompkins, 1997). Así, la volatilidad no sólo es una medida del riesgo, sino un 
producto negociable. 
 
 
1.7 Suavizamiento de series de tiempo 
 
Dependiendo de la serie de tiempo, algunas veces resulta necesario suavizarla para 
de esta manera eliminar algunas de las fluctuaciones a corto plazo más volátiles. 
Dicho suavizamiento puede realizarse antes de generar un pronóstico o también 
para contar con una serie de tiempo más fácil de analizar e interpretar. 
 
Una forma sencilla de suavizar una serie es tomar un promedio móvil de 
periodo n. La serie Yt suavizada de esta manera queda expresada por: 
 
( )11 ...
1ˆ
+−− +++= ntttt YYYn
Y 
 
Mientras más grande sea la n, más suave resultará la serie. 
 
Otro método de suavizamiento es el exponencial,el cual hace uso del 
modelo de promedio móvil con ponderaciones decrecientes en forma de progresión 
geométrica: 
 
...)1()1(ˆ 2
2
1 +−+−+= −− tttt YYYY ααααα 
 
Donde el coeficiente α puede tomar valores entre 0 y 1. La suma de los 
coeficientes siempre dará la unidad, ya que: 
 
( )∑
∞
=
=
−−
=−
0
1
)1(1
1
s
s
α
ααα 
 
Por lo tanto, se necesitan menos términos de la media móvil cuanto mayor 
sea el valor de α. Para α = 1, la media coincidirá con el valor del periodo. Con un α 
cercano a cero, las ponderaciones de los valores serán todas muy pequeñas y el 
número de términos será mayor. 
 
La elección del parámetro α debe ajustarse para cada serie en particular, 
aunque muchos programas permiten el cálculo automático del valor óptimo de α, en 
el sentido de seleccionar aquel que minimiza el error cuadrático medio. 
 
Algunas veces se requiere hacer una mayor suavización de una serie pero no 
dar mucho peso a los datos individuales pasados. En este caso, el uso de la 
ecuación con un valor pequeño de α no sería aceptable, pero en su lugar puede 
aplicarse un suavizamiento exponencial doble. Como su nombre lo indica, la serie 
suavizada inicialmente se suaviza otra vez. 
 
 
13 
Capítulo 1: Series de tiempo 
 
 
La fórmula de suavizamiento exponencial simple también puede modificarse 
incorporando cambios promedio en la tendencia (incremento o disminución) a largo 
plazo de la serie. Esto fundamenta el método de suavizamiento exponencial lineal 
con dos parámetros propuesto por Holt y ampliado por Winters, y que actualmente 
es conocido como suavizamiento exponencial lineal con doble parámetro o técnica 
de Holt-Winters, (Pulido y López, 1999). 
 
 
1.8 Métodos clásicos para el tratamiento de series de tiempo financieras 
 
Los métodos tradicionales de series de tiempo financieras incluyen los siguientes 
modelos: 
 
- Modelo de media. 
 
yty μ=ˆ 
 
Por ejemplo, el valor a predecir es igual al valor de la media de la muestra de 
la serie de tiempo. 
 
- Modelo de tendencia lineal 
 
tyt βα +=ˆ 
 
Es equivalente a ajustar una línea a una serie de observaciones de manera 
tal que los residuos sean minimizados. 
 
 
- Modelo de caminata aleatoria 
 
α+= −1ˆ tt yy 
 
El valor estimado es equivalente al valor previo más una diferencia aleatoria, 
y es aplicable a series de tiempo que no son estacionarias pero que sus 
primeras diferencias sí lo son. 
 
- Modelo de caminata aleatoria geométrica 
 
α+= − )log()log( 1tt yy 
 
αeyy tt 1−= 
 
)1(1 α+≈ −tt yy 
 
 
14 
Capítulo 1: Series de tiempo 
 
 
Aplicable a series de tiempo que exhiben un crecimiento exponencial 
irregular, pero cuya transformación logarítmica de dicho crecimiento es más o 
menos lineal y puede ser aproximada por el modelo de caminata aleatoria. 
 
- Modelos AR, MA, ARMA, ARIMA, ARFIMA así como modelos basados en 
ellos (que pueden incluir algunas transformaciones específicas que ayudan a 
quitar tendencias estacionarias). 
 
- Modelos de la familia ARCH (ARCH, GARCH, I-GARCH, GARCH-M, etc) que 
son usados para modelar series de tiempo cuyas varianzas cambian en el 
tiempo (Gujarati, op. cit., p. 829). 
 
- Modelos de valuación de activos de capital (CAPM), utilizan el rendimiento 
para activos individuales o portafolios (Bodie y Merton, 2003). 
 
- Modelos basados en Black y Scholes empleados para modelar precios de 
opciones tomando en consideración las propiedades específicas de ellas. 
 
 
 
15 
Capítulo 2: Redes neuronales 
 
Capítulo 2 
 
Redes neuronales 
 
 
2.1 Generalidades 
 
Las Redes Neuronales Artificiales (RNA) forman parte de una tecnología de 
procesamiento de información que surge a raíz de los últimos desarrollos en 
software computacional aplicados al área de inteligencia artificial. Representan una 
herramienta muy innovadora para simular y analizar sistemas de relaciones 
complejas y cambiantes. 
 
Las RNA son modelos matemáticos desarrollados con base en el 
funcionamiento de los sistemas nerviosos biológicos. De esta manera, se intenta 
contar con un sistema que imite el funcionamiento natural de las neuronas, es decir, 
que puedan “pensar” y “aprender” como el cerebro humano, el cual se puede ver 
como un conjunto interconectado de neuronas. 
 
La primera interpretación matemática de las redes neuronales fue realizada 
en 1865 cuando Mach, un físico y filósofo austriaco, intentó explicar la interacción 
recíproca e inhibitoria de los elementos que rodean a la retina (Peel y Wilson, 1996). 
Los trabajos sobre el desarrollo de modelos matemáticos detallados comienzan 
desde hace más de cuarenta años, con los trabajos de McCulloch y Pitts (1943), 
Hebb (1949), Rosenblatt (1959), Widrow (1960) y Posch (1968), entre otros. 
 
Sin embargo, cuando se pretende analizar un conjunto de datos con 
relaciones complejas y condiciones adicionales, la cantidad de procesamiento 
requerida se eleva considerablemente, lo cual ocasionó que los primeros intentos 
por utilizar este tipo de modelos fueran abandonados debido a la limitada capacidad 
de los sistemas de cómputo disponibles en la época. 
 
Fue hasta los años 80 cuando se retoma el interés por su empleo de forma 
más generalizada. Esto debido a los avances en la potencia de cálculo de las 
nuevas computadoras, aunado a un mayor conocimiento del funcionamiento del 
propio cerebro humano. Así, los estudios realizados en este campo por Hopfield 
(1982, 1984 y 1986), Rumelhart y McClelland (1986), Sejnowski y Rosemberg 
(1986), Feldman (1982), Grossberg (1986) y otros, permitieron el resurgimiento de 
esta nueva área del conocimiento. 
 
Este nuevo interés se debió al desarrollo de algoritmos y nuevas topologías 
de red, nuevas técnicas de implementación de circuitos VLSI6 analógicos (Mead, 
1986) y algunas demostraciones intrigantes por parte de Senowski (op. cit.) y 
 
6 Very Large Scale Integration (escala de integración muy grande). Se refiere a una gran cantidad de circuitos 
eléctricos que pueden ser colocados en un área muy pequeña. 
 
16 
Capítulo 2: Redes neuronales 
Hopfield (op. cit.), así como por la creciente fascinación por el funcionamiento del 
cerebro humano. 
 
 
2.2 Teoría y operación 
 
Para poder entender el funcionamiento de un sistema nervioso biológico es 
necesario conocer las partes que lo componen, así como la interacción que existe 
entre sus propios elementos y su relación con el exterior. Ramón y Cajal (1899) 
proporciona un buen estudio e introducción en este sentido. También Berumen 
(1998) en su tesis de maestría realiza una completa síntesis de las redes 
neuronales y algunas aplicaciones a las finanzas. Lo importante del presente trabajo 
es el de tratar de imitar el extraordinario funcionamiento de los sistemas nerviosos 
por medio de redes neuronales artificiales, y aprovechar las ventajas que ofrecen en 
la resolución de problemas prácticos, gracias a la capacidad innata que tienen los 
sistemas biológicos de aprender a partir de ejemplos. Algo que la propia naturaleza 
ha logrado a lo largo de millones de años para adaptarse al medio que lo rodea y, 
resolver problemas que involucran el tratamiento de información masiva, imprecisa 
y distorsionada proveniente del entorno natural. 
 
Sin embargo, dada la complejidad de los sistemas neuronales biológicos, es 
necesario hacer una abstracción de las funciones y elementos que los componen 
para poder emplear modelos capaces de ser implementados con la tecnología 
disponible. De esta manera, y considerando a las neuronas desde un punto de vista 
práctico, éstas pueden ser vistas como pequeños procesadores de información. Las 
cuales -haciendo una analogía con los sistemas informáticos tradicionales- poseen 
un canal de entrada de información, lasdendritas, un órgano de cómputo, el soma, 
y un canal de salida, el axón7. 
 
La conexión funcional entre dos neuronas para el transporte del impulso 
nervioso se denomina sinapsis. En relación a la sinapsis, se mencionan dos tipos de 
neuronas, presinápticas (las que envían señales) y postsinápticas (las que reciben 
señales). La intensidad de una sinapsis no es fija, sino que puede cambiar, 
dependiendo de determinadas condiciones. Esta variabilidad en la intensidad de la 
sinapsis constituye en buena medida el aprendizaje propiamente dicho, tal y como 
lo postuló Hebb (op. cit.), encontrándose evidencias experimentales de ello en Nieto 
(1989), Alkon (1989) y, Kandel y Hawkins (1992). 
 
Existen varias formas de modelar el sistema nervioso: por el establecimiento 
de nuevas conexiones, ruptura de otras, modelado de las intensidades sinápticas 
(plasticidad) o incluso mediante muerte neuronal. En especial, la modificación de las 
intensidades sinápticas es el mecanismo más empleado por los sistemas 
neuronales artificiales para llevar a cabo el aprendizaje. 
 
 
7 Se trata solamente de recoger parte del funcionamiento de la neurona, ya que se sabe que su funcionamiento 
completo es mucho más complejo. 
 
17 
Capítulo 2: Redes neuronales 
Por medio de las redes neuronales artificiales se pretenden replicar tres 
características importantes de los sistemas nerviosos: el paralelismo de cálculo, la 
memoria distribuida y la adaptabilidad. 
 
El paralelismo de cálculo está relacionado con la existencia de varios 
elementos de cálculo capaces de procesar información de manera simultánea -o en 
paralelo-, permitiendo al sistema un manejo de información mucho más rápido que 
un sistema que ejecuta instrucciones de manera secuencial. 
 
La memoria distribuida se refiere a la posición de las localidades de memoria 
que ocupa la información –que a diferencia de las computadoras convencionales en 
las que ocupa posiciones de memoria bien definidas-, en las redes neuronales se 
encuentra definida de acuerdo a la sinapsis particular de la red. 
 
Por último, la adaptabilidad se da por medio de la modificación de las 
sinapsis existentes en la red y a su capacidad de “aprender” por medio de ejemplos 
o patrones –también llamada experiencia-, para poder realizar generalizaciones a 
partir de ejemplos específicos y explotar esa característica esencial y hasta 
distintiva del sistema nervioso humano. De acuerdo a lo anterior, se puede decir 
entonces que las redes neuronales son sistemas paralelos, distribuidos y 
adaptables. 
 
 En un sistema neuronal biológico, las neuronas son los elementos básicos. 
Millones de neuronas se organizan en capas para formar sistemas con determinada 
funcionalidad, lo que en conjunto constituyen el sistema nervioso. En el caso de un 
sistema neuronal artificial se puede intentar copiar dicha estructura, en la cual, la 
neurona artificial se organiza en capas, varias capas forman una red y la red, con 
sus interfaces de entrada y salida constituyen un sistema neuronal completo. 
 
 
2.3 Modelo General de una Neurona Artificial 
 
De acuerdo con lo establecido por el grupo PDP8, el funcionamiento de una 
neurona o procesador elemental se puede modelar por medio de una función 
(Rumelhart y McClelland, op. cit.)., por lo que la operación de una neurona i se 
puede expresar de la siguiente forma: 
 
( )))](,(),([)( txwtafFty jijiiiii σ1−= 
 
Donde: 
 
xj(t) representa el conjunto de entradas, 
 
 
8 Parallel Distributed Processing Research Group. Es un grupo de investigación en RNA, a quienes se atribuye 
en gran medida el renacimiento de las redes neuronales en la década de los 80. Su trabajo se publicó en dos 
volúmenes considerados clásicos (Rumelhart y McClelland, 1986). 
 
18 
Capítulo 2: Redes neuronales 
wij son los pesos sinápticos de la neurona i, que representan la intensidad de la 
relación entre la neurona presináptica j y la neurona postsináptica i, 
 
σi[wij, xj(t)] es la regla de propagación que proporciona el valor del potencial 
postsináptico hi(t) = σ[wij, xj(t)] de la neurona i en función de sus pesos y entradas, 
 
fi[ai(t-1), hj(t)] es la función de activación que proporciona el estado de activación 
actual ai(t) = fi[ai(t-1), hj(t)] de la neurona i, en función de su estado anterior ai(t-1) y 
de su potencial postsináptico actual. 
 
Fi[ai(t)] es la función de salida que proporciona la salida actual yi(t) = Fi[ai(t)] de la 
neurona i en función de su estado de activación. 
 
Una representación gráfica de lo anterior se puede ver en la figura 2.1 (Rumelhart, 
1986). 
 
 
 
Regla de 
propagación
Función de 
activación
Función de 
salida
Salida yi
Entradas xj
ai = f(hi)
hi = σ(wij, xj) yi = F(ai)
Pesos sinápticos wij 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 2.1 Modelo de una neurona artificial. 
 
 
De acuerdo a Nelson e Illingworth (1991), existe una infinidad de formas de 
organizar una red neuronal aunque, tal vez sólo una docena de modelos son de uso 
común. Una red neuronal se puede describir en términos de su neurodinámica y 
arquitectura. 
 
La neurodinámica se refiere a las propiedades de una neurona artificial 
individual que consiste de lo siguiente: 
 
 
19 
Capítulo 2: Redes neuronales 
- Combinación de entradas 
 
- Producción de salidas 
 
- Tipo de funciones de transferencia (o activación) 
 
- Esquemas de pesos, v. gr. inicialización de pesos, y algoritmos de 
entrenamiento. 
 
Estas propiedades también pueden ser aplicadas a la red en su conjunto de 
un sistema básico. 
 
La arquitectura de red o topología define la estructura de la red e incluye las 
siguientes características básicas: 
 
- Tipos de interconexiones entre neuronas 
 
- Número de neuronas 
 
- Número de capas 
 
 
2.4 Neurodinámica 
 
2.4.1 Entradas 
 
Las variables de entrada y salida pueden ser tanto analógicas como digitales, 
dependiendo del modelo como de las aplicaciones. La capa de entrada de una red 
neuronal comúnmente funciona como un regulador de las entradas, transfiriendo 
datos a la siguiente capa. Se puede requerir realizar un preprocesamiento para que 
la red sólo maneje datos numéricos. Esto puede involucrar el escalamiento de los 
datos de entrada y convertir o codificar los datos de entrada a una forma numérica 
que pueda ser usada por la red. 
 
 
2.4.2 Salidas 
 
La capa de salida de una red neuronal funciona de una forma similar a la capa de 
entrada excepto que transfiere la información de la red al exterior. Frecuentemente 
se utiliza un postprocesamiento para convertir la información a una forma 
comprensible y útil hacia fuera de la red. Dependiendo del tipo de salida, las 
neuronas reciben nombres específicos. Por ejemplo, las neuronas estándar cuya 
salida sólo puede tomar el valor de 1 ó 0 se conocen como tipo McCulloch-Pitts, 
mientras que las que toman a su salida los valores de -1 y +1 se llaman del tipo 
 
20 
Capítulo 2: Redes neuronales 
Ising9, si puede adoptar diversos valores en la salida, v. gr. -2, -1, 0, 1, 2, se dice 
que se trata de una neurona tipo Potts (Müller,1990). 
 
 
2.4.3 Regla de propagación 
 
La regla de propagación permite calcular el valor del potencial post-sináptico hi de la 
neurona a partir de las entradas y pesos correspondientes. 
 
La función más común es la suma ponderada de las entradas y los pesos 
sinápticos. 
∑=
j
jiji xwth )( 
 
Utilizando la notación de vectores, se puede representar como el producto 
escalar del vector de entrada y el de pesos. 
 
xw ⋅= Tii th )( 
 
El peso sináptico wij se interpreta como la intensidad de la relación entre la 
neurona presináptica j y la postsináptica i. Dependiendo de la entrada, si el peso es 
positivo y la entrada también positiva, se tenderá a excitar a la neuronapostsináptica, pero si el peso es negativo se tenderá a inhibirla. Por lo que se habla 
entonces de sinapsis excitadoras (con peso positivo) o inhibidoras (con peso 
negativo). 
 
Una regla de propagación no lineal es la siguiente: 
 
∑=
jpjj
jpjjjpjjii xxxwth
...
... ...)(
21
2121 
 
 
que involucra la multiplicación de todas las entradas de la neurona, lo cual se 
acerca mucho a la funcionalidad de la neurona biológica, pero aumenta su 
complejidad tanto en su análisis como en el hardware necesario para 
implementarla. Este tipo de neurona se denomina de orden superior o neurona 
sigma-pi, debido al empleo de sumas y multiplicaciones (Rumelhart, op. cit.). 
 
 
9 Ising, debido al paralelismo con el modelo de Ising, que es un modelo físico propuesto para estudiar el 
comportamiento de los materiales ferromagnéticos. En el modelo se emplea el espín σi o espín de la partícula i-
ésima, que puede tomar sólo dos valores, +1 y -1. 
 
 
21 
Capítulo 2: Redes neuronales 
Otra regla de propagación empleada comúnmente en los modelos que 
emplean el cálculo de distancias entre vectores (como RBF, mapas de Kohonen o 
LVQ), es la distancia euclídea: 
 
∑ −=
j
ijji wxth
22 )()( 
 
la cual determina la distancia entre el vector de entradas y el de pesos. Cuando los 
vectores de entrada y de pesos son similares, la distancia es muy pequeña, y 
cuando son diferentes la distancia se incrementa. 
 
 
2.4.4 Función de activación o función de transferencia 
 
Esta función determina el estado de activación actual ai(t) a partir del potencial 
postsináptico hi(t) y del estado de activación anterior ai(t-1) 
 
))(),(()( thtafta iiii 1−= 
 
Aunque en muchos modelos sólo se considera su estado actual, la función se 
expresa como sigue: 
 
))(()( thfta iii = 
 
Existen varias funciones de activación, algunas de las cuales se muestran en 
la figura 2.2 La variable x representa el potencial postsináptico, mientras que la 
variable y = f(x) representa el estado de activación. La función identidad, la función 
escalón y la función lineal por intervalos son las más sencillas. Aunque dependiendo 
del algoritmo de aprendizaje, algunas veces se requiere que la función de activación 
sea derivable, las más empleadas en este caso son las funciones del tipo 
sigmoideo. 
 
 
 
22 
Capítulo 2: Redes neuronales 
 
 
Figura 2.2 Funciones de activación comunes. 
 
 
La función gaussiana también es ampliamente utilizada junto con reglas de 
propagación que involucran el cálculo del cuadrado de las distancias entre los 
vectores de entrada y pesos, como se mencionó anteriormente. Las funciones 
sinusoidales también se emplean en los casos en los que es necesario expresar 
una periodicidad temporal. 
 
 
2.4.5 Función de salida 
 
La función de salida determina la salida total de la neurona yi(t) en función de su 
estado de activación actual ai(t). Frecuentemente se usa la función identidad y = x, 
de tal forma que el estado de activación de la neurona se considera como la propia 
salida: 
 
( ) )()()( tataFty iiii == 
 
 
23 
Capítulo 2: Redes neuronales 
La función de salida también puede ser un escalón, para que la neurona 
dispare la salida hasta que se alcance cierto nivel de umbral. 
 
 
2.5 Modelo estándar de una neurona artificial 
 
El modelo anterior es muy general, por lo que de manera práctica se emplea un 
modelo estándar más sencillo. 
 
Además, en algunas ocasiones se agrega al conjunto de pesos de la neurona 
un parámetro adicional θi en las unidades de i, llamado umbral10 quedando el 
argumento de la función de la siguiente manera: 
 
∑ −
j
ijij xw θ 
 
Lo anterior implica agregar un grado de libertad a la neurona. Para el caso de 
las neuronas todo-nada mencionadas más adelante, el parámetro θ representará el 
nivel mínimo o umbral que debe alcanzar el potencial postsináptico para que la 
neurona se active. 
 
De esta forma, el modelo de la neurona queda: 
 
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−= ∑
j
ijijii xwfty θ)( 
 
Para expresar el modelo de una forma más compacta, los índices i y j se 
hacen que comiencen en cero, definiendo wi0 ≡ θi y x0 ≡ -1. 
 
Finalmente, el modelo se puede expresar de la siguiente manera: 
 
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
= ∑
=
n
j
jijii xwfty
0
)( 
 
donde: 
 
xj(t) es el conjunto de entradas, 
 
wij son los pesos sinápticos, 
 
∑= jiji xwth )( es la regla de propagación y 
 
 
10 También es conocido como sesgo y se le asigna un valor numérico de uno. 
 
24 
Capítulo 2: Redes neuronales 
( )()( thfty iii = ) es la función de activación que representa tanto la salida de la 
neurona como su estado de activación. 
 
Con el modelo de la neurona establecido solo es necesario especificar la 
forma de la función de activación para caracterizarla por completo. A continuación 
se muestran algunos de los modelos de neuronas más comunes. 
 
 
2.5.1 Neuronas todo-nada 
 
Tomando como referencia al modelo de la neurona estándar, considerando que las 
entradas son discretas, por ejemplo xi = {0, 1}, y que la función de activación es el 
escalón H(x), definido entre 0 y 1, se tiene: 
 
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−= ∑
j
ijiji xwHty θ)( 
 
y como la función H(x) = 1 cuando x ≥ 0, y H(x) = 0 cuando x < 0, se tiene lo 
siguiente: 
 
⎩
⎨
⎧
<
≥
=
∑
∑
 si ,
 si ,
ijij
ijij
i xw
xw
y
θ
θ
0
1
 
 
Por lo que, cuando el potencial de entrada supera el umbral θi la neurona se 
activa, de lo contrario permanece inactiva. Debido a lo anterior este modelo se 
conoce también como dispositivo de umbral dada su forma de activación. 
 
 
2.5.2 Neurona continua sigmoidea 
 
Si el modelo de neurona estándar puede tener entradas tanto discretas como 
continuas pero la salida solamente continua, se puede emplear como función de 
activación a la función sigmoidea, que es una función continua y diferenciable en 
determinado intervalo. Las dos funciones más comunes son las siguientes: 
 
[0,1] ycon , ∈
+
=
−xe
y
1
1 
[-1,1] ycon ),( ∈=
+
−
=
−
−
xtgh
ee
eey xx
xx
 
 
El motivo de emplear funciones diferenciables es que algunas reglas de 
aprendizaje así lo requieren, tal como sucede con la retropropagación ó BP11. 
 
11 Back-propagation por sus siglas en inglés. 
 
25 
Capítulo 2: Redes neuronales 
 
2.6 Arquitecturas de redes neuronales 
 
La arquitectura es la topología, estructura o patrón de conexión de una red 
neuronal. En una RNA los nodos se conectan por medio de sinapsis, por lo que la 
configuración de estas sinapsis determina el comportamiento de la red. Las 
conexiones sinápticas son direccionales, por lo que la información sólo puede viajar 
en un solo sentido, de la neurona presináptica a la neurona postsináptica. Ver figura 
2.3. 
 
 
Neurona presináptica (j)
Neurona postsináptica (i)
xj
wij
yj
yi
(j)
(i)
 
 
Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica. 
 
 
Las neuronas se pueden agrupar en capas, las capas a su vez pueden 
agruparse en grupos neuronales o clusters. El conjunto de una o más capas se 
denomina red neuronal. 
 
Existen tres tipos de capas: de entrada, salida y ocultas. La capa de entrada 
está compuesta por neuronas que reciben información proveniente del entorno. La 
capa de salida es la que proporciona la respuesta de la red neuronal. La capa oculta 
es la que no tiene relación alguna con el exterior. Este tipo de capa agrega a la red, 
grados de libertad adicionales, con los cuales es posible representar diversas 
configuraciones y mejorar la capacidad de cálculo. 
 
Las conexiones entre las neuronas pueden permitir su excitación o inhibirla 
de acuerdo al peso sináptico, por lo que se define como una conexión inhibitoria a 
aquella que tiene un peso sináptico negativo y a una conexión

Continuar navegando