Pronosticos-en-el-mercado-de-derivados-utilizando-redes-neuronales-y-modelos-ARIMA--una-aplicacion-al-Cete-de-91-dias-en-el-MexDer

•

Humanas / Sociais

Contenido de Estudio

29/9/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Ciencias Sociales

83.635 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Universidad Nacional Autónoma de México

Programa de Posgrado en Ciencias de la Administración
F a c u l t a d d e C o n t a d u r í a y A d m i n i s t r a c i ó n
F a c u l t a d d e Q u í m i c a
I n s t i t u t o d e I n v e s t i g a c i o n e s S o c i a l e s
I n s t i t u t o d e I n v e s t i g a c i o n e s J u r í d i c a s

T e s i s

Pronósticos en el mercado de derivados utilizando
redes neuronales y modelos ARIMA: una aplicación al Cete
de 91 días en el MexDer.

Que para obtener el grado de:

Maestro en Finanzas

Presenta: Iván Cruz Torres

T u t o r : M. en F. Arturo Morales Castro

México, D.F. 2007

UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).
El uso de imágenes, fragmentos de videos, y demás material que sea
objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.

Agradecimientos

A mis Padres: Martha y Raymundo por todo su apoyo.

Al Mtro. Arturo Morales Castro por su ayuda, consejos, interés, paciencia y sobre todo
por su propuesta para el desarrollo de la tesis, ya que sin su colaboración, este
trabajo no habría sido posible. Gracias.

A la Universidad Nacional Autónoma de México y a la Facultad de Contaduría y
Administración, por abrirme sus puertas y dejarme ser parte de ellos.

A Janett, por su apoyo y comprensión durante el desarrollo de esta tesis, hemos
pasado muy buenos momentos juntos.

A todos los que directa o indirectamente hayan hecho posible que otro de mis sueños
se haya hecho realidad.

El problema real no es si las máquinas piensan, sino si los hombres lo hacen.

B. F. Skinner, Contingencies of reinforcement, 1969.

Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer

Índice

Índice ……………………………………………………………………………………………. i

Índice de tablas y figuras …………………………………………..……………….…….….. v

Resumen ………………………………………………………………………………..……... vi

Introducción …………………………………………………………......……………………. vii

a. Planteamiento del problema ................................................................................. vii
b. Hipótesis …………………………………………………………….……….…...……. viii
c. Objetivos ……………………………………………………..…………………………. ix
c.1 Objetivo general ………………………………………………………...………… ix
c.2 Objetivos específicos ……………………………………………….…….…..….. ix
d. Justificación …………………………………………………………………………….. ix
e. Tipo de investigación ……………………………………………….……….…..…...… x
f. Breve contenido de la tesis ……………………………………………………......…… x

Parte I. Marco Teórico. Series de tiempo y redes neuronales …………………………… 1

Capítulo 1. Series de tiempo …………………………..…………………………………….. 2

1.1 Generalidades ………………………………………………………………..…....….. 2
1.2 Algunos conceptos de las series de tiempo …………………………..………..….. 4
1.2.1 Proceso estocástico ……………………………………….…………..……….. 4
1.2.2 Proceso estacionario ...………………………………………………..…….….. 4
1.2.3 Proceso puramente aleatorio ………………………………………...…….….. 4
1.2.4 Caminata aleatoria ……………………………………….………..………..….. 4
1.2.5 Procesos estocásticos integrados …………………………………………….. 5
1.2.6 Prueba de raíz unitaria ……………………………………….………..…...….. 5
1.3 Modelos ARIMA ……………………………………….…………………………..….. 6
1.3.1 Proceso autorregresivo (AR) …………………………………………..…..….. 6
1.3.2 Proceso de media móvil (MA) ………………………………………...……….. 6
1.3.3 Proceso autorregresivo y de media móvil (ARMA) …………………….....… 7
1.4 Caracterización de las series de tiempo: función de autocorrelación …….…..… 7
1.4.1 Función de autocorrelación …………………………………………………..... 7
1.4.2 Función de autocorrelación parcial …………………………..…………..…… 8
1.5 Propiedades de las series de tiempo financieras ………………………….....…… 9
1.5.1 Hipótesis de los mercados eficientes …………………………………..…..… 9
1.6 Datos usados en la predicción de series de tiempo financieras ….……………. 10
1.6.1 Datos técnicos. ……………………………………………………………..….. 10

i
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer
1.6.2 Datos fundamentales …………………………………………………..….….. 11
1.7 Suavizamiento de series de tiempo ……………………………………………….. 13
1.8 Métodos clásicos para el tratamiento de series de tiempo financieras ………... 14

Capítulo 2. Redes neuronales ………………………………………………………….….. 16

2.1 Generalidades ……………………………….……………………………….…….... 16
2.2 Teoría y operación ………………………………………….…………………...….. 17
2.3 Modelo General de una Neurona Artificial ……………………..………………… 18
2.4 Neurodinámica ……………………………………….…………………………….... 20
2.4.1 Entradas …………………………………………………………………….….. 20
2.4.2 Salidas …………………………………………………………………..…..….. 20
2.4.3 Regla de propagación …………………………………………………….…... 21
2.4.4 Función de activación o función de transferencia ……….…………………. 22
2.4.5 Función de salida ……………………………………………….………….….. 23
2.5 Modelo estándar de una neurona artificial …………………………….………..… 24
2.5.1 Neuronas todo-nada ……………………………………….……………...….. 25
2.5.2 Neurona continua sigmoidea ………………………………………….….….. 25
2.6 Arquitecturas de redes neuronales ………………………………………….…….. 26
2.6.1 Redes Neuronales de dos capas …………………………………….….….. 27
2.6.2 Redes Neuronales multicapa .………………………………………...….….. 29
2.6.3 Una definición formal de red neuronal …………………………….………... 32
2.6.4 Actualización del estado de las neuronas ………………………………..…. 33
2.7 Modos de operación de una red neuronal …………………………………….….. 34
2.7.1 Modo de aprendizaje ………………………………………………………….. 34
2.7.1.1 Aprendizaje supervisado ………………………………………….…..… 36
2.7.1.2 Aprendizaje no supervisado …………………..………………….…….. 36
2.7.1.3 Aprendizaje híbrido ……………………………………………………… 37
2.7.1.4 Aprendizaje reforzado ………………………………………….……..… 37
2.7.2 Algoritmo de retropropagación …………………………………….…………. 37
2.7.3 Fase de recuerdo o ejecución ……………………………………….….….… 39
2.8 Clasificación de los modelos neuronales …………………………..….………….. 40
2.9 Desarrollo de un modelo RNA …………………………………………...………… 41
2.9.1 Selección del algoritmo de aprendizaje ………………………………...…… 41
2.9.2 Selección de las funciones de error y transferencia ………………….……. 42
2.9.2.1 Funciones de error ……………………………………………….…..….. 42
2.9.2.2 Funciones de transferencia ……………………………………….……. 42
2.9.3 Aspectos importantes en la predicción con RNA ……………….………….. 44

Capítulo 3. Redes neuronales aplicadas a las series de tiempo financieras …………. 46

3.1 Generalidades ……………………………………………………………...….…….. 46
3.2 Sistemas tradicionales …………………………………………….…………….….. 47
3.3 RNA como modelo no lineal …………………………………………………….….. 48
3.4 Modelos paramétricos y no paramétricos …………………………………………49

ii
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer
3.5 Modelos auto regresivos no lineales …………………………………………….… 49
3.6 Modelos de promedio móvil …………………………………………….………….. 51
3.7 Algunas aplicaciones de redes neuronales a las series de tiempo …….……… 53

Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la metodología
ARIMA ...………………………………………………………………………………………. 55

Capítulo 4. Metodología para pronósticos mediante modelos ARIMA y RNA ……...… 56

4.1 Metodología para pronósticos mediante modelos ARIMA ……………..……….. 56
4.1.1 Análisis exploratorio de la serie ………………………………………....…… 56
4.1.2 Identificación del modelo ……………………………………...……...…….… 56
4.1.3 Estimación de parámetros ……………………………………………….…… 56
4.1.4 Verificación de diagnóstico ………………………………….…………...…… 57
4.1.5 Pronóstico ………………………………….……………….…………......…… 57
4.2 Metodología para predicción mediante RNA …………………………………..…. 57
4.2.1 Selección de variables ……………………………….…...………………..… 57
4.2.2 Recolección de datos ………………………………………………….……… 58
4.2.3 Pre procesamiento de datos ………………………………….…....………… 58
4.2.4 Conjuntos de entrenamiento y prueba ……………………….……………… 59
4.2.5 Parámetros de las RNA .……….…………………………………...………… 59
4.2.5.1 Número de capas ocultas ………………...…………………………….. 59
4.2.5.2 Número de neuronas ocultas ……………………………………….….. 60
4.2.5.3 Número de neuronas de salida ……………………………………..….. 61
4.2.5.4 Función de transferencia ……………………………………………….. 61
4.2.6 Criterio de evaluación ………………………….……………………………… 61
4.2.7 Entrenamiento de la red …………………………….………………………… 61
4.2.7.1 Número de iteraciones de entrenamiento ……………………….……. 61
4.2.7.2 Tasa de aprendizaje y momento ………………………………………. 62
4.2.8 Implementación .……………………………………………………………..… 63

Capítulo 5. Desarrollo y análisis de resultados ………………………………...………… 64

5.1 Datos …………………………………………………………………………..……… 64
5.2 Obtención del modelo ARIMA para la serie MexDer Cete Dc08 ………….…… 64
5.2.1 Análisis exploratorio de la serie ……………………………………………… 65
5.2.2 Identificación del modelo ……………………………………………………… 66
5.2.2.1 Selección del conjunto de estimación …….............................………. 66
5.2.2.2 Estudio de la estacionariedad …….....................…….............………. 66
5.2.2.3 Determinación de la función de auto correlación y la función de auto...
correlación parcial de la serie estacionaria ….....……............………. 68
5.2.2.4 Determinación del componente autorregresivo p y promedio móvil q 69
5.2.2.5 Especificación del modelo ARIMA identificado ……...............………. 70
5.2.3 Estimación de parámetros ……......................................................………. 70
5.2.4 Verificación de diagnóstico …….....................................................………. 70

iii
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer
5.2.4.1 Contraste de validez del modelo ……....................................………. 72
5.2.5 Pronóstico ……...............................................................................………. 73
5.3 Obtención del modelo RNA para la serie MexDer Cete Dc08 …..……………… 74
5.3.1 Selección de variables …………………………………………………..……. 74
5.3.2 Recolección de datos …………………………………………………….…… 75
5.3.3 Pre-procesamiento de datos ………………………………….……………… 76
5.3.4 Conjuntos de entrenamiento y prueba …………………………..………….. 76
5.3.5 Parámetros de la RNA ……………..……………………………….………… 77
5.3.5.1 Número de capas ocultas ……….…………………..………………….. 77
5.3.5.2 Número de neuronas en la capa oculta …………………….…………. 77
5.3.5.3 Número de neuronas de salida ………………………………………… 78
5.3.5.4 Función de transferencia ……………….…………...………………….. 78
5.3.6 Criterio de evaluación …………………………………………………………. 78
5.3.7 Entrenamiento de la red ………………………………………………………. 78
5.3.7.1 Número de iteraciones de entrenamiento …………………………….. 79
5.3.7.2 Tasa de aprendizaje y momento …………………...………………….. 79
5.3.8 Implementación ………………………………………………...……………… 80
5.4 Resultados obtenidos ………………………………………..……………………… 81
5.4.1 Resultados obtenidos por medio del modelo ARIMA ………..……………. 81
5.4.2 Resultados obtenidos por medio del modelo RNA ..…………………...….. 82
5.4.3 Características de las series pronosticadas por ARIMA y RNA ………….. 83
5.5 Pruebas de hipótesis ……………………………………………………..…………. 85
5.5.1 Descripción de variables …………………………………………..………….. 86
5.5.2 Pruebas de hipótesis específicas de los modelos dentro de muestra …... 86
5.5.2.1 Coeficiente de determinación …………………………..………………. 86
5.5.2.2 Criterio de información de Akaike ……………………………………… 87
5.5.2.3 Criterio de información de Schwarz ……………………………….…... 88
5.5.3 Pruebas de hipótesis específicas de los modelos fuera de muestra …….. 89
5.5.3.1 Raíz del Error Cuadrático Medio ………………………………………. 89
5.5.3.2 Error Medio Absoluto Porcentual ………………………………………. 89
5.5.3.3 Coeficiente de desigualdad de Theil …………………………………... 90

Capítulo 6. Conclusiones y propuestas para futuras investigaciones …………….…… 92

Capítulo 7. Referencias ……………………………………………………………...……… 94

Apéndices ……………………………………………………………………….…..……… 102

Apéndice A Equivalencias entre la literatura estadística y la literatura RNA ……….. 102
Apéndice B Datos de cierre del futuro del Cete CT91D-dc08 en el MexDer ……..… 103

iv
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer
Índice de tablas y figuras ……………………………………………………...……………… v

Tabla 1.1 Patrones teóricos de FAC y FACP ..……..…….. ……………………………… 8
Tabla 2.1 Aspectos generales del trabajo con RNA en predicciones ………….……… 44
Tabla 5.1 Pesos entre la capa de entrada y la capa oculta de la RNA estimada ….… 80
Tabla 5.2 Pesos entre la capa oculta y la capa de salida de la RNA estimada ……… 81
Tabla 5.3 Características de la series pronosticadas del Cete en el MexDer …….…. 85
Tabla 5.4 Características de la series pronosticadas del Cete, primeros 60 días ..…. 85

Figura 2.1 Modelo de una neurona artificial .….……………………………..……...…… 19
Figura 2.2 Funciones de activación comunes …………………………………….…...… 23
Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica …….…… 26
Figura 2.4 Red neuronal de dos capas ……………………………………………...…… 29
Figura 2.5 Red neuronal multicapa …………………………………………………….…. 30
Figura 2.6 Ejemplo para demostrar las ventajas de las capas ocultas …………….…. 31
Figura 2.7 Efecto del sobreentrenamiento …………………………………………….…. 35
Figura 2.8 Clasificación de modelos de RNA por tipo de aprendizaje y arquitectura .. 41
Figura 2.9 Comparación de las funciones de transferencia sigmoidea …………….… 43
Figura 2.10 Esquema de trabajo con RNA ………………………….…………………… 45
Figura 3.1 Red neuronal unidireccional como modelo AR no lineal ………………..…. 51
Figura 3.2 Red neuronal conformando un modelo ARMA no lineal …….…………….. 52
Figura 4.1 Gráficas del comportamiento de los errores en una RNA ……………..….. 62
Figura 5.1 Gráfica del Cete 91d, Dc08 en el MexDer …………………………...……… 65
Figura 5.2 Gráficade la serie del rendimiento logarítmico (RCT) ………………...…… 66
Figura 5.3 Correlograma de la serie del futuro del Cete suavizada, en niveles …...… 68
Figura 5.4 Correlograma de la serie RCT ………………………………………….…….. 69
Figura 5.5 Correlograma de los residuos del modelo ARIMA estimado …....………… 72
Figura 5.6 Pronóstico realizado mediante el modelo ARIMA sobre la serie RCT …… 74
Figura 5.7 Arquitectura de la RNA que proporciona los mejores resultados …………. 80
Figura 5.8 Pronóstico realizado mediante el modelo RNA sobre la serie RCT …….... 81
Figura 5.9 Pronóstico realizado mediante el modelo ARIMA en niveles ………….….. 82
Figura 5.10 Pronóstico realizado mediante el modelo RNA en niveles ……………..... 83
Figura 5.11 Comparación entre ajustes mediante ARIMA y RNA, en niveles ……...... 84
Figura 5.12 Comparación entre pronósticos mediante ARIMA y RNA, en niveles ...... 84

v
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer

Resumen

El objetivo de esta tesis es proponer un modelo que permita pronosticar la tendencia de
la serie del futuro del Cete de 91 días en el MexDer con vencimiento en diciembre de
2008, aplicando redes neuronales y series de tiempo, y comparar los pronósticos
obtenidos de esta forma con los que se obtendrían con un modelo ARIMA tradicional,
con el fin de conocer que modelo ajusta mejor los datos dentro de muestra y que
modelo pronostica mejor los datos fuera de muestra.

La principal aportación es demostrar que el modelo propuesto basado en redes
neuronales es capaz de obtener buenas aproximaciones tanto en el ajuste como en el
pronóstico, además de observar que, en este caso en particular, la aproximación
resulta mejor que la generada por medio de la metodología ARIMA. Así también, la
tesis contiene una propuesta metodológica para la aplicación de las redes neuronales a
las series de tiempo financieras.

Este trabajo se divide en dos partes: Parte I, Marco teórico. Series de tiempo y
redes neuronales, en donde se establecen las bases teóricas para el desarrollo de la
tesis. Parte II. Desarrollo y aplicación del modelo propuesto y, comparación con la
metodología ARIMA, en la cual se muestran las hipótesis de la investigación, su
desarrollo y los resultados obtenidos, a partir de los cuales se presentan las
conclusiones y algunas propuestas para futuras investigaciones.

vi
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer

Introducción

La importancia de saber el comportamiento de determinado activo financiero o
instrumento derivado en un futuro permite tomar previsiones para evitar tomar riesgos
innecesarios o tener la oportunidad de obtener mayores beneficios que la mayoría de
las personas no puede aprovechar.

Las técnicas de pronóstico de series de tiempo por los métodos estadísticos
tradicionales permiten llevar a cabo esta labor como, por ejemplo, por medio de la
metodología Box-Jenkins, la cual permite obtener buenas aproximaciones en el caso
de que dicho método sea bien aplicado, ya que ésta metodología tiene una parte de
arte en el sentido de que el proceso es iterativo hasta alcanzar el mejor modelo de
acuerdo a la experiencia del investigador.

Existen en general dos grupos de modelos propuestos para pronosticar series de
tiempo aplicadas a las finanzas, por un lado, los modelos estadísticos tradicionales
como los modelos ARIMA, los modelos GARCH y los mixtos, y por otro, los modelos
basados en áreas nuevas como la inteligencia artificial, las redes neuronales y los
algoritmos genéticos.

Mediante el uso de redes neuronales artificiales es posible realizar predicciones
sobre el comportamiento de series financieras, en este caso, para pronosticar la
tendencia del futuro del Cete de 91 días en el MexDer. De acuerdo a la mayor parte de
la literatura existente, se espera un mejor desempeño de las RNA en comparación con
un modelo ARIMA utilizado como referencia, ya que las redes neuronales son capaces
de identificar relaciones no lineales, las cuales, como se ha demostrado en algunos
estudios, existen en los mercados financieros.

Resulta muy recomendable también, saber cuáles son las virtudes de cada una
de las técnicas disponibles, por lo que en este trabajo se presentan las fortalezas y
debilidades del modelo que emplea RNA como instrumento de predicción aplicado a
series de tiempo financieras.

a. Planteamiento del problema

La predicción de series de tiempo financieras ha adquirido gran atención dentro de las
investigaciones empíricas, tanto que los econometristas han empezado a dedicar
mayores esfuerzos a este tipo de información, tal y como se demuestra con el número
de artículos publicados en la materia.

Una de las técnicas estadísticas tradicionales empleadas frecuentemente en el
pronóstico de series de tiempo es la metodología Box-Jenkins, la cual permite obtener

vii
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer
buenas aproximaciones cuando se aplica a series de tiempo estacionarias o que
pueden convertirse en estacionarias mediante la transformación o transformaciones
adecuadas.

Hasta ahora no se tiene conocimiento de la aplicación de un modelo similar al
mercado mexicano de derivados desde un enfoque de series de tiempo, las propuestas
en trabajos de tesis se han enfocado al aprendizaje de las redes utilizando las variables
de entrada con las cuales se calcularía el valor de una opción, por ejemplo, por medio
de la fórmula Black y Scholes (Pérez, 1998), por lo que esta tesis pretende determinar
la factibilidad de emplear redes neuronales en la predicción de la serie del futuro del
Cete en el MexDer.

La pregunta general es:

¿Es posible generar un modelo basado en redes neuronales capaz de ajustar y
predecir la tendencia de los datos de la serie de tiempo del futuro del Cete en el
MexDer, así como mejorar los resultados obtenidos por medio de un modelo ARIMA
utilizado como referencia?

A partir de la cual se plantean las siguientes preguntas específicas:

- ¿El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro
de muestra que el modelo ARIMA usado como referencia?

- ¿El modelo propuesto basado en redes neuronales pronostica mejor los datos
fuera de muestra que el modelo ARIMA usado como referencia?

b. Hipótesis

Hipótesis general:

Un modelo basado en redes neuronales es capaz de ajustar y predecir la tendencia de
los datos de la serie de tiempo del futuro del Cete en el MexDer, así como también
mejorar los resultados obtenidos por medio de un modelo ARIMA utilizado como
referencia.

A partir de la cual se plantean las siguientes hipótesis específicas:

- El modelo propuesto basado en redes neuronales ajusta mejor los datos dentro
de muestra que el modelo ARIMA usado como referencia.

- El modelo propuesto basado en redes neuronales pronostica mejor los datos
fuera de muestra que el modelo ARIMA usado como referencia.

viii
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer

c. Objetivos

c.1 Objetivo general:

Desarrollar un modelo basado en redes neuronales capaz de ajustar y predecir la
tendencia de los datos de la serie de tiempo del futuro del Cete en el MexDer, así como
también realizar un análisis comparativo con un modelo ARIMA utilizado como
referencia para determinar que modelo proporciona los mejores resultados.

c.2 Objetivos específicos:

- Determinar si el modelo propuesto basadoen redes neuronales ajusta mejor los
datos dentro de muestra que el modelo ARIMA usado como referencia por
medio de criterios estadísticos.

- Determinar si el modelo propuesto basado en redes neuronales pronostica mejor
los datos fuera de muestra que el modelo ARIMA usado como referencia por
medio de criterios estadísticos.

d. Justificación

La intención de esta tesis es mostrar la capacidad de las RNA de realizar pronósticos
en series de tiempo financieras, en particular sobre la serie del futuro del Cete en el
MexDer, como una herramienta alterna a las técnicas estadísticas tradicionales como la
metodología ARIMA, además de explicar de manera clara y sencilla -pero sin perder de
vista la rigurosidad matemática que involucran este tipo de temas-, el funcionamiento
de una RNA.

El estudio propuesto no está diseñado para aquellas personas o empresas que
se dedican de manera profesional a la inversión de valores, sino para aquellos
inversionistas inquietos que deseen intentar una nueva forma de valuar instrumentos
financieros con mayor precisión y poder subsanar de este modo la desventaja que
presenta el no contar con todo un equipo de expertos en finanzas para poder
determinar si el precio de determinado instrumento es el adecuado o no, basado en
tecnologías que han demostrado su efectividad en otras disciplinas y que ahora se
aplican a un sistema aparentemente caótico, pero a la vez con cierto orden como lo es
el mercado de derivados.

Existen pocos estudios realizados por medio de redes neuronales relacionados
al presente, y los que existen son aplicados sobre todo a mercados de países
desarrollados, por lo que se pretende que este estudio pueda aplicarse a distintas
series de tiempo existentes en el MexDer, incrementando con ello el abanico de
posibilidades que cualquier persona debe poseer para poder tomar las mejores
decisiones. Es por esta razón que esta investigación se considera novedosa.

ix
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer

Por todo lo anterior, existe la necesidad de desarrollar un marco conceptual que
permita fundamentar la propuesta metodológica de la presente tesis, y elaborar una
investigación empírica con el fin de comprobar las hipótesis planteadas.

e. Tipo de investigación

Dado que no es posible realizar la manipulación de los datos de manera arbitraria en
cuanto a sus valores, puesto que éstos son fijos dado que son los precios históricos de
la serie de tiempo del futuro del Cete en el MexDer, este estudio no es experimental.
Además, como el objeto de estudio es una serie de tiempo, el análisis será en
consecuencia longitudinal. Inherentemente este estudio es diacrónico puesto que se
usan los datos históricos, mismos que se emplean para predecir los valores de la serie
en el tiempo t+1.

Los datos considerados son los precios históricos del futuro de la serie del Cete
a 91 días que cotiza en el MexDer, debido a que se quiere mostrar la aplicación de las
redes neuronales artificiales al mercado mexicano. Se consideran los precios dentro del
periodo del 1 de noviembre de 2002 al 12 de abril de 2007.

Se pasará entonces por la etapa correlacional, donde se explicará la relación de
las diversas variables involucradas en la investigación para finalmente emitir
conclusiones con respecto a la mejor técnica para realizar ajustes y predicciones dentro
y fuera de muestra respectivamente, así como la complejidad, ventajas y limitaciones
de la metodología propuesta.

f. Breve contenido de la tesis

La tesis comienza con una introducción en donde se presenta un panorama general del
tema, se plantea el problema, se proponen hipótesis, se dan a conocer los objetivos, se
justifica la investigación, se establece el tipo de investigación y se describe brevemente
su contenido. La tesis se divide en dos partes principales: la primera trata acerca de las
bases teóricas de las series de tiempo y de las redes neuronales, y la segunda parte
utiliza el marco teórico para desarrollar los modelos ARIMA y RNA en el ajuste y
predicción de series de tiempo financieras.

Parte I. Marco teórico. Series de tiempo y redes neuronales, en la cual se
establecen las bases teóricas para el desarrollo de la investigación, presentando los
aspectos relevantes de dichos temas, sus propiedades, aplicaciones, utilidad,
complejidad y su poderoso alcance en el área de las finanzas.

En el primer capítulo se revisan los conceptos de las series de tiempo, procesos
estocásticos, estacionarios, modelos ARIMA, funciones de auto correlación, tipos de
datos empleados en pronósticos y métodos clásicos para el tratamiento de series
financieras.

x
Pronósticos en el mercado de derivados utilizando redes neuronales y modelos ARIMA: una aplicación al Cete de 91 días en el MexDer

El segundo capítulo incluye la teoría y operación de las redes neuronales, así
como el modelo general, la arquitectura, los modos de operación, la clasificación de los
modelos y los pasos generales en el desarrollo de un modelo con RNA.

El tercer capítulo relaciona los primeros dos capítulos por medio de la revisión de
la literatura en la cual las redes neuronales son aplicadas al pronóstico de series de
tiempo financieras, incluyendo el estudio de los sistemas tradicionales, los modelos
lineales y no lineales, los paramétricos y no paramétricos, los modelos autorregresivos
no lineales, que serán la base del modelo propuesto con RNA, así como la descripción
de algunas aplicaciones seleccionadas de las RNA a las finanzas.

Parte II. Desarrollo y aplicación del modelo propuesto. Comparación con la
metodología ARIMA. En esta parte se aplica tanto la metodología ARIMA como la de
RNA, se realiza un estudio comparativo de los resultados obtenidos y se emiten las
conclusiones respectivas así como también algunas propuestas para investigaciones
futuras.

El capítulo cuarto trata acerca de la metodología para pronósticos mediante
modelos ARIMA y RNA, en donde se explica a detalle la metodología a seguir para
realizar pronósticos mediante modelos ARIMA, como son, el análisis exploratorio de la
serie, la identificación del modelo, la estimación de parámetros, la verificación de
diagnóstico así como el pronóstico respectivo. También se proporciona la metodología
para predicción mediante RNA, la cual incluye, la selección de variables, la colección
de datos, el preprocesamiento de datos, los conjuntos de entrenamiento y prueba, los
paradigmas de las RNA, el criterio de evaluación, el entrenamiento de la red y la
implementación respectiva.

En el capítulo quinto se realiza el desarrollo y el análisis de resultados,
abarcando la descripción de los datos, la obtención del modelo ARIMA, la obtención del
modelo RNA, los resultados obtenidos y las pruebas de hipótesis específicas
planteadas al inicio de la tesis.

En el capítulo sexto se presentan las conclusiones obtenidas a través del
desarrollo de la tesis, así como algunas propuestas para el desarrollo de futuras
investigaciones afines al tema.

Finalmente se proporciona la bibliografía empleada así como los apéndices
referidos en el texto y la base de datos utilizada.

xi
Capítulo 1: Series de tiempo

Parte I.

Marco teórico

Series de tiempo y redes neuronales

En esta parte se establecen las bases teóricas para el desarrollo de la tesis,
incluyendo también la revisión de la literatura relacionada con la aplicación de las
RNA en la predicción de series de tiempo financieras.

1
Capítulo 1: Series de tiempo

Capítulo 1

Series de tiempo

1.1Generalidades

Una serie de tiempo es una secuencia cronológica de observaciones de una
variable en particular (Bowerman y O’Connel, 1993).

En términos formales, una serie de tiempo se define como una secuencia de
vectores, dependientes del tiempo transcurrido t:

)(tx
donde t = 0, 1, 2, …

Teóricamente, x se puede ver como una función continua de la variable de
tiempo t. Sin embargo, para cuestiones prácticas, el tiempo generalmente se ve en
términos de pasos de tiempo discretos, conduciendo a una instancia de x en cada
punto de un intervalo de tiempo, generalmente de tamaño fijo (Dorffner, 1996).

De acuerdo a Chatfield (1978), son varios los objetivos por los cuales se
desea analizar una serie de tiempo:

- Descripción: Al tener una serie de tiempo, el primer paso en el análisis es
graficar los datos y obtener medidas descriptivas simples de las propiedades
principales de la serie.

- Explicación: Cuando las observaciones son tomadas sobre dos o más
variables, es posible usar la variación en una serie para explicar la variación
en las otras series.

- Predicción: Dada una serie de tiempo se intenta predecir los valores futuros
de la serie. Este es el objetivo más frecuente en el análisis de series de
tiempo.

- Control: Si una serie de tiempo se genera por mediciones de calidad de un
proceso, el objetivo del análisis puede ser el control del proceso.

Una serie de tiempo generalmente se examina con la intención de descubrir
patrones históricos que puedan ser útiles en la predicción. Para identificar esos
patrones es conveniente pensar que una serie de tiempo consiste de varios
componentes:

2
Capítulo 1: Series de tiempo

- Tendencia. Una serie de tiempo tiene tendencia cuando por largos periodos
los valores crecen o disminuyen consistentemente. También puede definirse
como cambios en la media.

- Ciclos. Se refiere a movimientos hacia arriba o hacia abajo alrededor del
nivel de la tendencia. Estas fluctuaciones, medidas de pico a pico, pueden
tener una duración larga.

- Variaciones estacionales. Son patrones históricos que ocurren y se repiten
cada determinado tiempo, por ejemplo, anualmente. Estas variaciones son
causadas típicamente por factores como el clima y las costumbres.

- Fluctuaciones irregulares. Son movimientos irregulares en una serie de
tiempo que no siguen un patrón regular, ni reconocible. Tales movimientos
representan “lo que queda” en una serie de tiempo después de que la
tendencia, ciclos y variaciones estacionales han sido explicados.

Pueden obtenerse valores futuros de una serie de tiempo observada
mediante una gran cantidad de métodos de predicción. Estos métodos pueden
clasificarse fundamentalmente en tres grupos:

- Subjetivos. Las predicciones se hacen sobre bases subjetivas usando el
criterio, la intuición, el conocimiento en el área y otra información relevante.
Entre estos métodos se encuentran: Ajuste de una curva subjetiva, el método
Delphi1 y comparaciones tecnológicas en tiempo independiente.

- Univariados. Con este tipo de métodos se obtienen valores futuros de la serie
basándose en el análisis de sus valores pasados, se intenta conseguir un
patrón en estos datos, se asume que este patrón continuará en el futuro y se
extrapola para conseguir predicciones. Son muchos los métodos que encajan
en esta categoría, entre estos se encuentran: Extrapolación de curvas de
tendencia, suavización exponencial, método de Holt-Winters2 y método de
Box-Jenkins (ARIMA). Este último es un método ampliamente utilizado.

- Causales o multivariados. Involucran la identificación de otras variables que
están relacionadas con la variable a predecir. Una vez que esas variables
han sido identificadas, se desarrolla un modelo estadístico que describe la
relación entre esas variables y la variable a pronosticar. Entre estos métodos

1 El método Delphi pretende extraer y maximizar las ventajas que presentan los métodos basados en grupos de
expertos y minimizar sus inconvenientes. Para ello se aprovecha la sinergia del debate en el grupo y se eliminan
las interacciones sociales indeseables que existen dentro de todo grupo. De esta forma se espera obtener un
consenso lo más fiable posible del grupo de expertos.
2 El modelo de Holt-Winters es una ampliación perfeccionada del suavizamiento exponencial.

3
Capítulo 1: Series de tiempo

se pueden identificar: Regresión múltiple, modelos econométricos y métodos
de Box y Jenkins (Modelo de función de transferencia3).

1.2 Algunos conceptos de las series de tiempo

1.2.1 Proceso estocástico

Un proceso estocástico4 o aleatorio es una colección de variables aleatorias
ordenadas en el tiempo. Si Y denota una variable aleatoria y continua, se denota
como Y(t), pero si es discreta se expresa como Yt.

1.2.2 Proceso estacionario

Un proceso estocástico es estacionario si su media y su varianza son constantes en
el tiempo y si el valor de la covarianza entre dos periodos depende solamente de la
distancia o rezago entre estos dos periodos de tiempo y no del tiempo en el cual se
ha calculado la covarianza. En otras palabras, una serie de tiempo no estacionaria
tendrá una media que varía con el tiempo o una varianza que cambia con el tiempo
o ambas (Gujarati, 2004).

1.2.3 Proceso puramente aleatorio

Un proceso puramente aleatorio es un tipo especial de proceso estocástico que
tiene una media igual a cero, una varianza constante σ2 y no esta serialmente
correlacionada5.

1.2.4 Caminata aleatoria

Es una serie de tiempo estocástica en la que cada cambio sucesivo en Yt,
expresado como ut es extraído en forma independiente de una distribución de
probabilidad con media 0 y varianza σ2 (Pindick y Rubinfeld, 2001). Por lo tanto, Yt
está determinada por:

Yt = Yt-1 + ut

3 Este modelo es una extensión del modelo ARIMA, también conocido como modelo de promedio
autorregresivo móvil multivariado (MARMA).
4 El término “estocástico” proviene de la raíz griega “stokhos” que significa blanco y, hace alusión a la forma
aleatoria en que se distribuyen los proyectiles lanzados contra un blanco.
5 Si también es independiente, dicho proceso se conoce estrictamente como ruido blanco.

4
Capítulo 1: Series de tiempo

1.2.5 Procesos estocásticos integrados

El modelo de caminata aleatoria es un caso específico de una clase más general de
procesos estocásticos conocidos como procesos integrados. Se puede demostrar
de manera sencilla que la primera diferencia del modelo de caminata aleatoria es
estacionaria. Si expresamos la caminata aleatoria como:

(Yt – Yt-1) = ΔYt = ut

Resulta fácil probar que mientras Yt no es estacionaria, su primera diferencia
si lo es, ya que por definición ut tiene media constante cero y una varianza de σ2.

Por tanto, se llama al modelo de caminata aleatoria sin variaciones proceso
integrado de orden 1 y se denota como I(1). De manera similar, si una serie de
tiempo tiene que diferenciarse dos veces para hacerla estacionaria, se llamará a
esa serie de tiempo integrada de orden 2 ó I(2).

En consecuencia, para convertir una serie no estacionaria en estacionaria se
toman tantas diferencias como sea necesario, y se dice que el número de
diferencias que se requiere para alcanzar la estacionariedad es el orden de
integración de la serie.

1.2.6 Prueba de raíz unitaria

Es una prueba para determinar la estacionariedad o no estacionariedad de una
serie de tiempo.

Si se considera la siguiente serie:

Yt = ρYt-1 + ut
donde -1 ≤ ρ ≤ 1

Si ρ = 1, como se demostró anteriormente, elproceso no es estacionario. De
esta manera, si se realiza la regresión de Yt sobre Yt-1 y se determina que la ρ es
estadísticamente igual a 1, se concluiría que Yt no es estacionaria.

Ahora, al diferenciar la serie se tiene la siguiente ecuación:

Yt – Yt-1 = ρYt-1 – Yt-1 + ut

o expresándola de otra manera:

ΔYt = δYt-1 + ut

donde δ = ρ - 1

5
Capítulo 1: Series de tiempo

Si δ = 0, entonces ρ = 1 y se dice que tiene una raíz unitaria, lo cual significa
que la serie de tiempo bajo estudio no es estacionaria, pero al mismo tiempo ΔYt =
ut. En consecuencia al tomar las primeras diferencias de la serie se obtiene una
estacionaria.

Para saber si δ = 0, la mayoría de los estudios aplican pruebas de raíces
unitarias introducidas por Dickey y Fuller (1979) conocidas como DF o DFA
(Dickey-Fuller aumentada), las cuales vienen integradas en la mayoría de los
paquetes econométricos actuales.

1.3 Modelos ARIMA

Box y Jenkins (1978) propusieron un modelo novedoso para la predicción de series
de tiempo. Popularmente es conocida como metodología Box-Jenkins aunque
técnicamente se conoce como metodología ARIMA, en la que se analizan las
propiedades probabilísticas o estocásticas de las series de tiempo económicas bajo
la filosofía de “permitir que la información hable por sí misma”.

1.3.1 Proceso autorregresivo (AR)

En el proceso autorregresivo de orden p la observación actual Yt es generada por
un promedio ponderado de observaciones pasadas que se remontan p periodos,
junto con una perturbación aleatoria en el periodo actual. Se denota este proceso
como AR(p) y la ecuación que lo describe es:

tptpttt uYYYY +++++= −−− δααα ...2211

Donde δ es un término constante que se relaciona con la media del proceso
estocástico.

Es interesante observar que el modelo anterior solamente considera los
valores actuales y anteriores de Yt, no hay otros regresores.

1.3.2 Proceso de media móvil (MA)

En el proceso de media móvil de orden q cada observación Yt es generada por un
promedio ponderado de perturbaciones aleatorias que se remontan q periodos. Se
denota este proceso como MA(q) y su ecuación respectiva es:

qtqtttt uuuuY −−− +++++= ββββμ ...22110
Donde μ = E(Yt).

6
Capítulo 1: Series de tiempo

El modelo de media móvil supone que las perturbaciones aleatorias están
distribuidas en forma independiente a lo largo del tiempo, es decir, son generadas
por un proceso de ruido blanco.

1.3.3 Proceso autorregresivo y de media móvil (ARMA)

Muchos procesos aleatorios estacionarios no pueden modelarse como
autorregresivos puros o de medias móviles puras, ya que tienen cualidades de
ambos tipos de procesos. De esta forma, se puede concebir un modelo mixto
autorregresivo de media móvil de orden (p, q). Se denota este proceso como ARMA
(p, q) y se representa por medio de la ecuación:

qtqttptptt uuuYYY −−−− +++++++= ββδαα ...... 1111

Además, las series de tiempo económicas generalmente no son
estacionarias, es decir, son integradas, razón por la cual si agregamos el concepto
de integración explicado anteriormente, de manera que se tenga que diferenciar una
serie de tiempo d veces para hacerla estacionaria y luego aplicar a esta el modelo
ARMA(p, q) se dice que la serie de tiempo original es del tipo ARIMA(p, d, q), es
decir, es una serie de tiempo autorregresiva integrada de media móvil.

1.4 Caracterización de las series de tiempo: función de autocorrelación

Existen dos funciones importantes en el análisis de series de tiempo a partir de las
cuales es posible extraer los parámetros del proceso ARMA. De acuerdo con Box y
Jenkins, éstas son la función de autocorrelación de la muestra y la función de
autocorrelación parcial. La apariencia de cada una de estas funciones da una
indicación de la naturaleza del proceso bajo estudio y, en teoría, la tarea de
identificar el modelo y de obtener sus parámetros se puede llevar a cabo con base
en ellas.

1.4.1 Función de autocorrelación

Dada una muestra Y0, Y1, …, Yn-1 de n observaciones, la función de autocorrelación
muestral (FAC) de la muestra al rezago k, denotada por ρk, se define como:

0 para
1-n ..., 1, k para
1

ˆ 0 =
=
⎪⎩
⎪
⎨
⎧
=
k
k
k γ
γ
ρ

donde:

γ0 es la varianza de la muestra dada por:

7
Capítulo 1: Series de tiempo

( )∑
=
−=
n
t
t YYn 1
2
0
1γ

γk es la covarianza al rezago k definida como:

( )( )∑
−
=
+ −−=
kn
t
kttk YYYYn 1
1γ

La función de autocorrelación indica cuánta correlación existe entre datos
individuales contiguos en la serie Yt (Pindick, op. cit. p. 520). Conforme el valor del
retraso aumenta, el número de observaciones comprendidas en la autocovarianza
disminuye hasta el elemento final. Al graficar ρk frente a k, la gráfica obtenida se
conoce como correlograma.

Cuando se grafica ρk se debe omitir el valor ρ0 el cual es invariablemente 1.
Además, al interpretar la gráfica se debe tener cuidado de dar demasiada
importancia a correlaciones en valores de retrasos que están significativamente
altos en relación con el tamaño de la muestra.

1.4.2 Función de autocorrelación parcial

La función de autocorrelación parcial (FACP) de la muestra ρkk en el retraso k es la
correlación entre observaciones (series de tiempo) que están separadas k periodos
de tiempo, manteniendo constantes las correlaciones en los rezagos intermedios
(es decir rezagos menores de k). En otras palabras, la autocorrelación parcial es la
correlación entre Yt y Yt-k después de eliminar el efecto de las Y intermedias.

En la tabla 1.1 se dan algunos lineamientos generales acerca de los patrones
típicos de las funciones de correlaciones muestral y parcial (Gujarati, op. cit., p.
818).

Tipo de
modelo
Patrón típico de FAC Patrón típico de FACP
AR(p) Disminuye exponencialmente
o con un patrón sinusoidal
decreciente o ambos
Picos grandes a lo largo de
los p rezagos
MA(q) Picos grandes a lo largo de
los q rezagos
Decrece exponencialmente
ARMA(p, q) Decrece exponencialmente Decrece exponencialmente

Tabla 1.1 Patrones teóricos de FAC y FACP

8
Capítulo 1: Series de tiempo

1.5 Propiedades de las series de tiempo financieras

La predicción de series de tiempo financieras es una tarea altamente complicada
debido a las siguientes razones:
- Las series de tiempo financieras se comportan casi como un proceso de
caminata aleatoria, impidiendo desde un punto de vista teórico la predicción
(Hellström y Holmström, 1998). La predicción de las series de tiempo más
comunes (precios de acciones, niveles de índices) es un tema controversial
y ha sido cuestionado en función de la hipótesis de mercados eficientes.

- Las series de tiempo financieras están sujetas al cambio en el tiempo, por
ejemplo, las propiedades estadísticas de las series de tiempo son diferentes
en distintos puntos del tiempo (el proceso de variación en tiempo, Hellström y
Holmström, ibid.).

- Las series de tiempo financieras son generalmente muy ruidosas, ya que
existe una gran cantidad de aleatoriedad (impredecible) en las variaciones
día a día (Magdon-Ismail, et. al., 1998).

- En el largo plazo, una nueva técnica de predicción llega ser parte del proceso
a ser predicho, por ejemplo, se influencia el proceso en predicción (Hellström
y Holmström, op. cit.).

1.5.1 Hipótesis de los mercados eficientes

La hipótesis de los mercados eficientes o HME fue desarrollada por Fama (1965) y
ha encontrado una gran aceptación en el medio financiero, Anthony y Biggs (1965),
Malkiel (1987), Tsibouris (1995), White(1988), Lowe y Webb (1991) y Lawrence et.
al. (1996).

La hipótesis de los mercados eficientes establece que el precio actual de
mercado refleja la asimilación de toda la información disponible. Esto significa que
dada la información, no se pueden hacer predicciones en cambios futuros de
precios. Conforme nueva información entra al sistema, se descubren
inmediatamente los ajustes y se eliminan rápidamente corrigiendo el precio de
mercado.

Dependiendo del tipo de información considerada, existen tres formas de
HME (Hellström y Holmström, op. cit.):

La forma débil.
Solamente se consideran los datos de precios pasados. Este tipo de HME elimina
cualquier forma de predicción basado en los precios solamente, porque los precios
siguen una caminata aleatoria en la cual, los cambios sucesivos tienen correlación
cero.

9
Capítulo 1: Series de tiempo

La forma semifuerte.
Se considera toda la información pública disponible. Esta incluye información
adicional como volúmenes y datos fundamentales como pronósticos de utilidades y
predicciones de ventas.

La forma fuerte
Toda la información disponible ya sea pública o privada es considerada.

En años recientes, la HME llegó a ser un asunto controversial debido a varias
razones. Por una parte, se mostró en algunos estudios que se pueden lograr
utilidades en exceso usando sólo los datos de precios históricos (Tino, et al, 2000),
por otra parte es muy difícil de probar la forma fuerte debido a la falta de datos.

Otro argumento razonable en contra de la HME se refiere a las diferentes
perspectivas de tiempo que tienen los inversionistas cuando hacen negocios. Por
ejemplo, un accionista mayoritario reaccionará de manera diferente a un vendedor
de piso cuando el precio de una acción cae repentinamente. Estas perspectivas de
tiempo causarán anomalías en los precios de mercado aún si no entra información
nueva al sistema. Puede ser entonces posible identificar estas situaciones y
eventualmente predecir cambios futuros (Hellström y Holmström, op. cit.).

De manera más frecuente, los argumentos a favor de la HME se refieren a
las pruebas estadísticas que muestran que no existe calidad predictiva en los
modelos probados e indicadores técnicos. La mayoría de los argumentos en contra
de la HME se refieren a un retraso en tiempo entre el punto cuando la nueva
información entra al sistema y el punto cuando es asimilada.

1.6 Datos usados en la predicción de series de tiempo financieras

Existen varios tipos de datos que pueden ser empleados en la predicción de series
de tiempo, los cuales generalmente son agrupados en dos categorías: datos
técnicos y datos fundamentales (Hellström y Holmström, op. cit.).

1.6.1 Datos técnicos.

Estos incluyen datos como precios de acciones, volumen, volatilidad, etc. De hecho,
el término series de tiempo financieras usualmente se refiere a series de tiempo de
datos técnicos.

Los típicos datos técnicos involucrados en la predicción de series de tiempo
financieras son:

- yC: precio de cierre; último precio negociado del día.

- yH: precio más alto negociado durante el día

10
Capítulo 1: Series de tiempo

- yL: precio más bajo negociado durante el día

- V: volumen total negociado durante el día

Mientras que en la mayoría de los casos se utilizan los datos diarios para
modelar el comportamiento de precios de acciones, también están disponibles
algunos datos de negociación intradía. Tales datos son usados en su mayoría no
para modelar el mercado, sino para determinar el tiempo correcto de la intención de
negociación en una operación real.

La opción más común de predicción es la serie de tiempo que emplea precios
de cierre. Esta opción tiene algunas deficiencias, entre ellas:

- Los precios de cierre varían grandemente y hacen difícil crear un modelo
para un periodo largo de tiempo.

- Los precios de cierre para diferentes acciones pueden diferir grandemente
sobre varias décadas o incluso años, y por lo tanto, no pueden ser usadas
como el mismo tipo de entrada en un modelo.

En lugar de modelar precios de cierre, una buena opción en muchos casos
es usar el rendimiento como tipo de dato.

1.6.2 Datos fundamentales

El análisis del valor de una compañía se realiza usualmente por analistas de
mercado profesionales de manera regular. Sus análisis proporcionan una base para
evaluar el valor real de la acción de la empresa. Los analistas fundamentales toman
en consideración los siguientes factores:

- El estado real de la economía medida por la inflación, la tasa de interés, el
balance comercial, etc.

- La situación de la industria a la cual pertenece la empresa medida por medio
de:

o Índices de precios de acciones (Dow Jones, DAX, FTSE 100, S&P
500, IPC, etc).
o Precios de productos relacionados como el petróleo, metales diversos
y monedas.
o El valor de las acciones de la competencia.

- La situación de la compañía medida por:

o La razón precio de la acción dividido entre el rendimiento por acción
durante los 12 meses anteriores.

11
Capítulo 1: Series de tiempo

o Valor en libros por acción (activos netos divididos entre el número total
de acciones).
o Margen de ganancia neta o ingreso neto dividido entre las ventas
totales.
o Razón de deuda o deudas divididas entre el total de activos.
o Pronósticos de ganancias futuras.
o Pronósticos de ventas futuras.

Además de los anteriores, existen otros tipos que son generados al
transformar y combinar datos técnicos y/o fundamentales como los siguientes:

Rendimientos

El rendimiento a un paso se define como el incremento relativo en el precio anterior
de la serie de tiempo:

)1(
)1()()(
−
−−
=
ty
tytytR

El rendimiento logarítmico se define como:

)1(
)(log)(
−
=
ty
tytR

Los datos así transformados son muy similares, con cambios pequeños y
usados muy frecuentemente en la predicción de series de tiempo financieras por las
siguientes razones:

- R(t) tiene un rango relativamente constante aún si se usan datos de varios
años como entradas. Los precios de y pueden variar mucho y hacer difícil la
creación de un modelo válido para un periodo de tiempo grande.

- R(t) para diferentes acciones pueden ser comparadas de igual forma.

- Es fácil de evaluar un algoritmo de predicción para R(t) calculando la
exactitud de la predicción del signo de R(t).

Volatilidad

La volatilidad es sinónimo de la desviación estándar de algún valor (por ejemplo el
precio de una acción). La volatilidad es una medida del riesgo, pero también de
posibilidades de ganancias. En las llamadas estrategias de negociación delta-
neutral (para contratos de opciones), la ganancia o pérdida de una operación no
depende del precio, sino de la volatilidad del precio de la acción respectiva

12
Capítulo 1: Series de tiempo

(Tompkins, 1997). Así, la volatilidad no sólo es una medida del riesgo, sino un
producto negociable.

1.7 Suavizamiento de series de tiempo

Dependiendo de la serie de tiempo, algunas veces resulta necesario suavizarla para
de esta manera eliminar algunas de las fluctuaciones a corto plazo más volátiles.
Dicho suavizamiento puede realizarse antes de generar un pronóstico o también
para contar con una serie de tiempo más fácil de analizar e interpretar.

Una forma sencilla de suavizar una serie es tomar un promedio móvil de
periodo n. La serie Yt suavizada de esta manera queda expresada por:

( )11 ...
1ˆ
+−− +++= ntttt YYYn
Y

Mientras más grande sea la n, más suave resultará la serie.

Otro método de suavizamiento es el exponencial,el cual hace uso del
modelo de promedio móvil con ponderaciones decrecientes en forma de progresión
geométrica:

...)1()1(ˆ 2
2
1 +−+−+= −− tttt YYYY ααααα

Donde el coeficiente α puede tomar valores entre 0 y 1. La suma de los
coeficientes siempre dará la unidad, ya que:

( )∑
∞
=
=
−−
=−
0
1
)1(1
1
s
s
α
ααα

Por lo tanto, se necesitan menos términos de la media móvil cuanto mayor
sea el valor de α. Para α = 1, la media coincidirá con el valor del periodo. Con un α
cercano a cero, las ponderaciones de los valores serán todas muy pequeñas y el
número de términos será mayor.

La elección del parámetro α debe ajustarse para cada serie en particular,
aunque muchos programas permiten el cálculo automático del valor óptimo de α, en
el sentido de seleccionar aquel que minimiza el error cuadrático medio.

Algunas veces se requiere hacer una mayor suavización de una serie pero no
dar mucho peso a los datos individuales pasados. En este caso, el uso de la
ecuación con un valor pequeño de α no sería aceptable, pero en su lugar puede
aplicarse un suavizamiento exponencial doble. Como su nombre lo indica, la serie
suavizada inicialmente se suaviza otra vez.

13
Capítulo 1: Series de tiempo

La fórmula de suavizamiento exponencial simple también puede modificarse
incorporando cambios promedio en la tendencia (incremento o disminución) a largo
plazo de la serie. Esto fundamenta el método de suavizamiento exponencial lineal
con dos parámetros propuesto por Holt y ampliado por Winters, y que actualmente
es conocido como suavizamiento exponencial lineal con doble parámetro o técnica
de Holt-Winters, (Pulido y López, 1999).

1.8 Métodos clásicos para el tratamiento de series de tiempo financieras

Los métodos tradicionales de series de tiempo financieras incluyen los siguientes
modelos:

- Modelo de media.

yty μ=ˆ

Por ejemplo, el valor a predecir es igual al valor de la media de la muestra de
la serie de tiempo.

- Modelo de tendencia lineal

tyt βα +=ˆ

Es equivalente a ajustar una línea a una serie de observaciones de manera
tal que los residuos sean minimizados.

- Modelo de caminata aleatoria

α+= −1ˆ tt yy

El valor estimado es equivalente al valor previo más una diferencia aleatoria,
y es aplicable a series de tiempo que no son estacionarias pero que sus
primeras diferencias sí lo son.

- Modelo de caminata aleatoria geométrica

α+= − )log()log( 1tt yy

αeyy tt 1−=

)1(1 α+≈ −tt yy

14
Capítulo 1: Series de tiempo

Aplicable a series de tiempo que exhiben un crecimiento exponencial
irregular, pero cuya transformación logarítmica de dicho crecimiento es más o
menos lineal y puede ser aproximada por el modelo de caminata aleatoria.

- Modelos AR, MA, ARMA, ARIMA, ARFIMA así como modelos basados en
ellos (que pueden incluir algunas transformaciones específicas que ayudan a
quitar tendencias estacionarias).

- Modelos de la familia ARCH (ARCH, GARCH, I-GARCH, GARCH-M, etc) que
son usados para modelar series de tiempo cuyas varianzas cambian en el
tiempo (Gujarati, op. cit., p. 829).

- Modelos de valuación de activos de capital (CAPM), utilizan el rendimiento
para activos individuales o portafolios (Bodie y Merton, 2003).

- Modelos basados en Black y Scholes empleados para modelar precios de
opciones tomando en consideración las propiedades específicas de ellas.

15
Capítulo 2: Redes neuronales

Capítulo 2

Redes neuronales

2.1 Generalidades

Las Redes Neuronales Artificiales (RNA) forman parte de una tecnología de
procesamiento de información que surge a raíz de los últimos desarrollos en
software computacional aplicados al área de inteligencia artificial. Representan una
herramienta muy innovadora para simular y analizar sistemas de relaciones
complejas y cambiantes.

Las RNA son modelos matemáticos desarrollados con base en el
funcionamiento de los sistemas nerviosos biológicos. De esta manera, se intenta
contar con un sistema que imite el funcionamiento natural de las neuronas, es decir,
que puedan “pensar” y “aprender” como el cerebro humano, el cual se puede ver
como un conjunto interconectado de neuronas.

La primera interpretación matemática de las redes neuronales fue realizada
en 1865 cuando Mach, un físico y filósofo austriaco, intentó explicar la interacción
recíproca e inhibitoria de los elementos que rodean a la retina (Peel y Wilson, 1996).
Los trabajos sobre el desarrollo de modelos matemáticos detallados comienzan
desde hace más de cuarenta años, con los trabajos de McCulloch y Pitts (1943),
Hebb (1949), Rosenblatt (1959), Widrow (1960) y Posch (1968), entre otros.

Sin embargo, cuando se pretende analizar un conjunto de datos con
relaciones complejas y condiciones adicionales, la cantidad de procesamiento
requerida se eleva considerablemente, lo cual ocasionó que los primeros intentos
por utilizar este tipo de modelos fueran abandonados debido a la limitada capacidad
de los sistemas de cómputo disponibles en la época.

Fue hasta los años 80 cuando se retoma el interés por su empleo de forma
más generalizada. Esto debido a los avances en la potencia de cálculo de las
nuevas computadoras, aunado a un mayor conocimiento del funcionamiento del
propio cerebro humano. Así, los estudios realizados en este campo por Hopfield
(1982, 1984 y 1986), Rumelhart y McClelland (1986), Sejnowski y Rosemberg
(1986), Feldman (1982), Grossberg (1986) y otros, permitieron el resurgimiento de
esta nueva área del conocimiento.

Este nuevo interés se debió al desarrollo de algoritmos y nuevas topologías
de red, nuevas técnicas de implementación de circuitos VLSI6 analógicos (Mead,
1986) y algunas demostraciones intrigantes por parte de Senowski (op. cit.) y

6 Very Large Scale Integration (escala de integración muy grande). Se refiere a una gran cantidad de circuitos
eléctricos que pueden ser colocados en un área muy pequeña.

16
Capítulo 2: Redes neuronales
Hopfield (op. cit.), así como por la creciente fascinación por el funcionamiento del
cerebro humano.

2.2 Teoría y operación

Para poder entender el funcionamiento de un sistema nervioso biológico es
necesario conocer las partes que lo componen, así como la interacción que existe
entre sus propios elementos y su relación con el exterior. Ramón y Cajal (1899)
proporciona un buen estudio e introducción en este sentido. También Berumen
(1998) en su tesis de maestría realiza una completa síntesis de las redes
neuronales y algunas aplicaciones a las finanzas. Lo importante del presente trabajo
es el de tratar de imitar el extraordinario funcionamiento de los sistemas nerviosos
por medio de redes neuronales artificiales, y aprovechar las ventajas que ofrecen en
la resolución de problemas prácticos, gracias a la capacidad innata que tienen los
sistemas biológicos de aprender a partir de ejemplos. Algo que la propia naturaleza
ha logrado a lo largo de millones de años para adaptarse al medio que lo rodea y,
resolver problemas que involucran el tratamiento de información masiva, imprecisa
y distorsionada proveniente del entorno natural.

Sin embargo, dada la complejidad de los sistemas neuronales biológicos, es
necesario hacer una abstracción de las funciones y elementos que los componen
para poder emplear modelos capaces de ser implementados con la tecnología
disponible. De esta manera, y considerando a las neuronas desde un punto de vista
práctico, éstas pueden ser vistas como pequeños procesadores de información. Las
cuales -haciendo una analogía con los sistemas informáticos tradicionales- poseen
un canal de entrada de información, lasdendritas, un órgano de cómputo, el soma,
y un canal de salida, el axón7.

La conexión funcional entre dos neuronas para el transporte del impulso
nervioso se denomina sinapsis. En relación a la sinapsis, se mencionan dos tipos de
neuronas, presinápticas (las que envían señales) y postsinápticas (las que reciben
señales). La intensidad de una sinapsis no es fija, sino que puede cambiar,
dependiendo de determinadas condiciones. Esta variabilidad en la intensidad de la
sinapsis constituye en buena medida el aprendizaje propiamente dicho, tal y como
lo postuló Hebb (op. cit.), encontrándose evidencias experimentales de ello en Nieto
(1989), Alkon (1989) y, Kandel y Hawkins (1992).

Existen varias formas de modelar el sistema nervioso: por el establecimiento
de nuevas conexiones, ruptura de otras, modelado de las intensidades sinápticas
(plasticidad) o incluso mediante muerte neuronal. En especial, la modificación de las
intensidades sinápticas es el mecanismo más empleado por los sistemas
neuronales artificiales para llevar a cabo el aprendizaje.

7 Se trata solamente de recoger parte del funcionamiento de la neurona, ya que se sabe que su funcionamiento
completo es mucho más complejo.

17
Capítulo 2: Redes neuronales
Por medio de las redes neuronales artificiales se pretenden replicar tres
características importantes de los sistemas nerviosos: el paralelismo de cálculo, la
memoria distribuida y la adaptabilidad.

El paralelismo de cálculo está relacionado con la existencia de varios
elementos de cálculo capaces de procesar información de manera simultánea -o en
paralelo-, permitiendo al sistema un manejo de información mucho más rápido que
un sistema que ejecuta instrucciones de manera secuencial.

La memoria distribuida se refiere a la posición de las localidades de memoria
que ocupa la información –que a diferencia de las computadoras convencionales en
las que ocupa posiciones de memoria bien definidas-, en las redes neuronales se
encuentra definida de acuerdo a la sinapsis particular de la red.

Por último, la adaptabilidad se da por medio de la modificación de las
sinapsis existentes en la red y a su capacidad de “aprender” por medio de ejemplos
o patrones –también llamada experiencia-, para poder realizar generalizaciones a
partir de ejemplos específicos y explotar esa característica esencial y hasta
distintiva del sistema nervioso humano. De acuerdo a lo anterior, se puede decir
entonces que las redes neuronales son sistemas paralelos, distribuidos y
adaptables.

En un sistema neuronal biológico, las neuronas son los elementos básicos.
Millones de neuronas se organizan en capas para formar sistemas con determinada
funcionalidad, lo que en conjunto constituyen el sistema nervioso. En el caso de un
sistema neuronal artificial se puede intentar copiar dicha estructura, en la cual, la
neurona artificial se organiza en capas, varias capas forman una red y la red, con
sus interfaces de entrada y salida constituyen un sistema neuronal completo.

2.3 Modelo General de una Neurona Artificial

De acuerdo con lo establecido por el grupo PDP8, el funcionamiento de una
neurona o procesador elemental se puede modelar por medio de una función
(Rumelhart y McClelland, op. cit.)., por lo que la operación de una neurona i se
puede expresar de la siguiente forma:

( )))](,(),([)( txwtafFty jijiiiii σ1−=

Donde:

xj(t) representa el conjunto de entradas,

8 Parallel Distributed Processing Research Group. Es un grupo de investigación en RNA, a quienes se atribuye
en gran medida el renacimiento de las redes neuronales en la década de los 80. Su trabajo se publicó en dos
volúmenes considerados clásicos (Rumelhart y McClelland, 1986).

18
Capítulo 2: Redes neuronales
wij son los pesos sinápticos de la neurona i, que representan la intensidad de la
relación entre la neurona presináptica j y la neurona postsináptica i,

σi[wij, xj(t)] es la regla de propagación que proporciona el valor del potencial
postsináptico hi(t) = σ[wij, xj(t)] de la neurona i en función de sus pesos y entradas,

fi[ai(t-1), hj(t)] es la función de activación que proporciona el estado de activación
actual ai(t) = fi[ai(t-1), hj(t)] de la neurona i, en función de su estado anterior ai(t-1) y
de su potencial postsináptico actual.

Fi[ai(t)] es la función de salida que proporciona la salida actual yi(t) = Fi[ai(t)] de la
neurona i en función de su estado de activación.

Una representación gráfica de lo anterior se puede ver en la figura 2.1 (Rumelhart,
1986).

Regla de
propagación
Función de
activación
Función de
salida
Salida yi
Entradas xj
ai = f(hi)
hi = σ(wij, xj) yi = F(ai)
Pesos sinápticos wij

Figura 2.1 Modelo de una neurona artificial.

De acuerdo a Nelson e Illingworth (1991), existe una infinidad de formas de
organizar una red neuronal aunque, tal vez sólo una docena de modelos son de uso
común. Una red neuronal se puede describir en términos de su neurodinámica y
arquitectura.

La neurodinámica se refiere a las propiedades de una neurona artificial
individual que consiste de lo siguiente:

19
Capítulo 2: Redes neuronales
- Combinación de entradas

- Producción de salidas

- Tipo de funciones de transferencia (o activación)

- Esquemas de pesos, v. gr. inicialización de pesos, y algoritmos de
entrenamiento.

Estas propiedades también pueden ser aplicadas a la red en su conjunto de
un sistema básico.

La arquitectura de red o topología define la estructura de la red e incluye las
siguientes características básicas:

- Tipos de interconexiones entre neuronas

- Número de neuronas

- Número de capas

2.4 Neurodinámica

2.4.1 Entradas

Las variables de entrada y salida pueden ser tanto analógicas como digitales,
dependiendo del modelo como de las aplicaciones. La capa de entrada de una red
neuronal comúnmente funciona como un regulador de las entradas, transfiriendo
datos a la siguiente capa. Se puede requerir realizar un preprocesamiento para que
la red sólo maneje datos numéricos. Esto puede involucrar el escalamiento de los
datos de entrada y convertir o codificar los datos de entrada a una forma numérica
que pueda ser usada por la red.

2.4.2 Salidas

La capa de salida de una red neuronal funciona de una forma similar a la capa de
entrada excepto que transfiere la información de la red al exterior. Frecuentemente
se utiliza un postprocesamiento para convertir la información a una forma
comprensible y útil hacia fuera de la red. Dependiendo del tipo de salida, las
neuronas reciben nombres específicos. Por ejemplo, las neuronas estándar cuya
salida sólo puede tomar el valor de 1 ó 0 se conocen como tipo McCulloch-Pitts,
mientras que las que toman a su salida los valores de -1 y +1 se llaman del tipo

20
Capítulo 2: Redes neuronales
Ising9, si puede adoptar diversos valores en la salida, v. gr. -2, -1, 0, 1, 2, se dice
que se trata de una neurona tipo Potts (Müller,1990).

2.4.3 Regla de propagación

La regla de propagación permite calcular el valor del potencial post-sináptico hi de la
neurona a partir de las entradas y pesos correspondientes.

La función más común es la suma ponderada de las entradas y los pesos
sinápticos.
∑=
j
jiji xwth )(

Utilizando la notación de vectores, se puede representar como el producto
escalar del vector de entrada y el de pesos.

xw ⋅= Tii th )(

El peso sináptico wij se interpreta como la intensidad de la relación entre la
neurona presináptica j y la postsináptica i. Dependiendo de la entrada, si el peso es
positivo y la entrada también positiva, se tenderá a excitar a la neuronapostsináptica, pero si el peso es negativo se tenderá a inhibirla. Por lo que se habla
entonces de sinapsis excitadoras (con peso positivo) o inhibidoras (con peso
negativo).

Una regla de propagación no lineal es la siguiente:

∑=
jpjj
jpjjjpjjii xxxwth
...
... ...)(
21
2121

que involucra la multiplicación de todas las entradas de la neurona, lo cual se
acerca mucho a la funcionalidad de la neurona biológica, pero aumenta su
complejidad tanto en su análisis como en el hardware necesario para
implementarla. Este tipo de neurona se denomina de orden superior o neurona
sigma-pi, debido al empleo de sumas y multiplicaciones (Rumelhart, op. cit.).

9 Ising, debido al paralelismo con el modelo de Ising, que es un modelo físico propuesto para estudiar el
comportamiento de los materiales ferromagnéticos. En el modelo se emplea el espín σi o espín de la partícula i-
ésima, que puede tomar sólo dos valores, +1 y -1.

21
Capítulo 2: Redes neuronales
Otra regla de propagación empleada comúnmente en los modelos que
emplean el cálculo de distancias entre vectores (como RBF, mapas de Kohonen o
LVQ), es la distancia euclídea:

∑ −=
j
ijji wxth
22 )()(

la cual determina la distancia entre el vector de entradas y el de pesos. Cuando los
vectores de entrada y de pesos son similares, la distancia es muy pequeña, y
cuando son diferentes la distancia se incrementa.

2.4.4 Función de activación o función de transferencia

Esta función determina el estado de activación actual ai(t) a partir del potencial
postsináptico hi(t) y del estado de activación anterior ai(t-1)

))(),(()( thtafta iiii 1−=

Aunque en muchos modelos sólo se considera su estado actual, la función se
expresa como sigue:

))(()( thfta iii =

Existen varias funciones de activación, algunas de las cuales se muestran en
la figura 2.2 La variable x representa el potencial postsináptico, mientras que la
variable y = f(x) representa el estado de activación. La función identidad, la función
escalón y la función lineal por intervalos son las más sencillas. Aunque dependiendo
del algoritmo de aprendizaje, algunas veces se requiere que la función de activación
sea derivable, las más empleadas en este caso son las funciones del tipo
sigmoideo.

22
Capítulo 2: Redes neuronales

Figura 2.2 Funciones de activación comunes.

La función gaussiana también es ampliamente utilizada junto con reglas de
propagación que involucran el cálculo del cuadrado de las distancias entre los
vectores de entrada y pesos, como se mencionó anteriormente. Las funciones
sinusoidales también se emplean en los casos en los que es necesario expresar
una periodicidad temporal.

2.4.5 Función de salida

La función de salida determina la salida total de la neurona yi(t) en función de su
estado de activación actual ai(t). Frecuentemente se usa la función identidad y = x,
de tal forma que el estado de activación de la neurona se considera como la propia
salida:

( ) )()()( tataFty iiii ==

23
Capítulo 2: Redes neuronales
La función de salida también puede ser un escalón, para que la neurona
dispare la salida hasta que se alcance cierto nivel de umbral.

2.5 Modelo estándar de una neurona artificial

El modelo anterior es muy general, por lo que de manera práctica se emplea un
modelo estándar más sencillo.

Además, en algunas ocasiones se agrega al conjunto de pesos de la neurona
un parámetro adicional θi en las unidades de i, llamado umbral10 quedando el
argumento de la función de la siguiente manera:

∑ −
j
ijij xw θ

Lo anterior implica agregar un grado de libertad a la neurona. Para el caso de
las neuronas todo-nada mencionadas más adelante, el parámetro θ representará el
nivel mínimo o umbral que debe alcanzar el potencial postsináptico para que la
neurona se active.

De esta forma, el modelo de la neurona queda:

⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−= ∑
j
ijijii xwfty θ)(

Para expresar el modelo de una forma más compacta, los índices i y j se
hacen que comiencen en cero, definiendo wi0 ≡ θi y x0 ≡ -1.

Finalmente, el modelo se puede expresar de la siguiente manera:

⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
= ∑
=
n
j
jijii xwfty
0
)(

donde:

xj(t) es el conjunto de entradas,

wij son los pesos sinápticos,

∑= jiji xwth )( es la regla de propagación y

10 También es conocido como sesgo y se le asigna un valor numérico de uno.

24
Capítulo 2: Redes neuronales
( )()( thfty iii = ) es la función de activación que representa tanto la salida de la
neurona como su estado de activación.

Con el modelo de la neurona establecido solo es necesario especificar la
forma de la función de activación para caracterizarla por completo. A continuación
se muestran algunos de los modelos de neuronas más comunes.

2.5.1 Neuronas todo-nada

Tomando como referencia al modelo de la neurona estándar, considerando que las
entradas son discretas, por ejemplo xi = {0, 1}, y que la función de activación es el
escalón H(x), definido entre 0 y 1, se tiene:

⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−= ∑
j
ijiji xwHty θ)(

y como la función H(x) = 1 cuando x ≥ 0, y H(x) = 0 cuando x < 0, se tiene lo
siguiente:

⎩
⎨
⎧
<
≥
=
∑
∑
si ,
si ,
ijij
ijij
i xw
xw
y
θ
θ
0
1

Por lo que, cuando el potencial de entrada supera el umbral θi la neurona se
activa, de lo contrario permanece inactiva. Debido a lo anterior este modelo se
conoce también como dispositivo de umbral dada su forma de activación.

2.5.2 Neurona continua sigmoidea

Si el modelo de neurona estándar puede tener entradas tanto discretas como
continuas pero la salida solamente continua, se puede emplear como función de
activación a la función sigmoidea, que es una función continua y diferenciable en
determinado intervalo. Las dos funciones más comunes son las siguientes:

[0,1] ycon , ∈
+
=
−xe
y
1
1
[-1,1] ycon ),( ∈=
+
−
=
−
−
xtgh
ee
eey xx
xx

El motivo de emplear funciones diferenciables es que algunas reglas de
aprendizaje así lo requieren, tal como sucede con la retropropagación ó BP11.

11 Back-propagation por sus siglas en inglés.

25
Capítulo 2: Redes neuronales

2.6 Arquitecturas de redes neuronales

La arquitectura es la topología, estructura o patrón de conexión de una red
neuronal. En una RNA los nodos se conectan por medio de sinapsis, por lo que la
configuración de estas sinapsis determina el comportamiento de la red. Las
conexiones sinápticas son direccionales, por lo que la información sólo puede viajar
en un solo sentido, de la neurona presináptica a la neurona postsináptica. Ver figura
2.3.

Neurona presináptica (j)
Neurona postsináptica (i)
xj
wij
yj
yi
(j)
(i)

Figura 2.3 Interacción entre una neurona presináptica y otra postsináptica.

Las neuronas se pueden agrupar en capas, las capas a su vez pueden
agruparse en grupos neuronales o clusters. El conjunto de una o más capas se
denomina red neuronal.

Existen tres tipos de capas: de entrada, salida y ocultas. La capa de entrada
está compuesta por neuronas que reciben información proveniente del entorno. La
capa de salida es la que proporciona la respuesta de la red neuronal. La capa oculta
es la que no tiene relación alguna con el exterior. Este tipo de capa agrega a la red,
grados de libertad adicionales, con los cuales es posible representar diversas
configuraciones y mejorar la capacidad de cálculo.

Las conexiones entre las neuronas pueden permitir su excitación o inhibirla
de acuerdo al peso sináptico, por lo que se define como una conexión inhibitoria a
aquella que tiene un peso sináptico negativo y a una conexión