Logo Studenta

TFG_ISABEL_VEGAS_VILLALMANZO

¡Este material tiene más páginas!

Vista previa del material en texto

TRABAJO FIN DE GRADO 
PREDICCIÓN DE VALORES DE BOLSA MEDIANTE 
MINERÍA DE DATOS PARA MERCADO DE ALTA 
FRECUENCIA 
 
AUTOR ISABEL VEGAS VILLALMANZO 
TUTOR JOAQUÍN ORDIERES MERÉ 
 
 
SEPTIEMBRE 2016 
 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
1 
Isabel Vegas Villalmanzo 
1. RESUMEN 
 
En los mercados bursátiles de alta frecuencia se opera a través del High Frecuency 
Trading (HFT). Este se caracteriza por el uso de ordenadores que aplican algoritmos 
informáticos que analizan e interpretan las señales y condiciones del mercado a gran 
velocidad; y, en respuesta a las mismas, introducen órdenes de compra y venta en el 
mercado de manera automática en un período de tiempo muy corto. El HFT se basa 
entonces, en el uso de una tecnología avanzada para llevar a cabo estrategias de 
negociación tradicionales, como por ejemplo la creación de mercado o el arbitraje. En 
las cuales, se obtiene por cada transacción un estrecho margen de beneficio en un 
pequeño periodo de tiempo, por lo que se realizan millones de operaciones diarias que 
generan un gran volumen de beneficios por acumulación. 
 
La velocidad de procesamiento de estas operaciones actualmente ronda los 
milisegundos. Por lo tanto, para ser considerado un High Frecuency Trader se debe 
emplear tecnología con muy baja latencia (tiempo que pasa desde que se trasmite la 
orden hasta que esta se ejecuta), una conexión de alta velocidad y bajo retardo al 
mercado para la introducción de órdenes, y un alta tasa de envío de órdenes y 
cancelación de las mismas. 
 
Una de las principales estrategias competitivas de los High Frecuency Traders es la 
disminución de la distancia entre el servidor de la plataforma de negociación y el suyo 
propio. Así, se reduce el tiempo de conexión, con lo que se puede operar con mayor 
agilidad y rapidez al reducir la latencia de las órdenes hasta tiempos de respuesta 
menores de una centésima de milisegundo. Para conseguir esto, hay que utilizar los 
servicios de co-location que ofrecen las propias bolsas, permitiendo colocar el servidor 
del trader a poca distancia del propio servidor de la bolsa. Esta ventaja competitiva clave 
en HFT es empleada actualmente por todos los agentes que participan en el mercado. 
Por lo que no constituye una ventaja real, sino que es un requerimiento básico para 
poder actuar en él. 
 
Al no poder mejorar la tecnología de la conexión ni colocar los servidores más próximos, 
no se puede disminuir la latencia por estos métodos. La única manera entonces de 
conseguir una ventaja competitiva será mejorando los algoritmos informáticos que 
analizan e interpretan las señales del mercado, y tratando así de predecir cómo va a 
evolucionar este para poder posicionarte antes que tus competidores. 
 
Para lograrlo, se va a emplear la minería de datos, que consiste en el estudio y 
tratamiento de datos masivos para extraer conclusiones e información relevante. 
Mediante estos procedimientos, se analizaran los datos históricos intradía de diferentes 
valores bursátiles para encontrar los patrones de comportamiento y las relaciones entre 
ellos que se producen a lo largo del tiempo. Y así, desarrollar un modelo de predicción 
que sea capaz de estimar a unos pocos minutos los precios de estos valores. 
1. Resumen 
2 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
La primera fase del proceso de minería de datos consiste en la preparación de los datos 
para mejorar la calidad del conjunto de datos, y poder elaborar un modelo que genere 
mayor y mejor información. Los datos de los que partimos son series temporales de 
precios intradía de diferentes valores de la bolsa de Madrid, a lo largo de un mes. En 
nuestro caso se han empleado las siguientes técnicas de preparación de datos: 
homogeneización de formato, transformación a una base de tiempo común, 
homogeneización e interpolación de la serie temporal, y eliminación de los 5 minutos 
iniciales y finales de la serie temporal, ya que no muestran la evolución propia del 
mercado. 
 
A continuación, se exploran los datos previamente preparados para determinar si la 
información que nos proporcionan, a priori, sirve a nuestro propósito que es elaborar 
un modelo de predicción de precios de valores bursátiles. Para ello, primero trataremos 
de conocer más a fondo los distintos valores de los que disponemos, calculando con el 
programa estadístico R diferentes indicadores técnicos con el fin de ver la evolución a lo 
largo del tiempo de los precios de las distintas cotizaciones de las que disponemos. 
Posteriormente, se realizará un estudio de las correlaciones entre los distintos valores 
bursátiles, con el fin de analizar si existen relaciones entre ellos, mediante la correlación 
lineal de Pearson. 
 
En este estudio de las correlaciones, se realizan 5 experimentos distintos. En cada uno 
de ellos se ha escogido una muestra de un día de actividad bursátil, de forma que cada 
experimento sea lo más aleatorio posible; y así, tener una idea general de las relaciones 
que hay entre los valores a lo largo del mes. Como resultado de este estudio, podemos 
afirmar que existe una relación lineal, en mayor o menor medida, entre los distintos 
valores bursátiles. Además, la correlación entre ellos puede mejorar al mover hacia 
delante o hacia atrás en el tiempo (lag positivo o negativo) la serie temporal de precios 
de un valor respecto al otro. De esta forma, un valor podría ser predictor adelantado del 
valor que se quiere estimar, pudiendo ser esta relación útil a la hora de elaborar el 
modelo de predicción. 
 
Ya conociendo más a fondo los datos que vamos a utilizar, podemos pasar a la 
elaboración del modelo. Un modelo de minería de datos consiste en el análisis de una 
estructura de datos, mediante el uso de un determinado algoritmo, para extraer 
patrones y reglas que, a su vez, pueden aplicarse a otros datos para obtener 
información. Para lograr el mejor modelo de predicción vamos a analizar diferentes 
casos: variando el número de valores a predecir en el tiempo, el algoritmo usado, o el 
tamaño de la estructura de datos a entrenar. 
 
Se realizarán 4 modelos de predicción distintos. El modelo inicial (modelo 0) tratará de 
predecir el precio del valor 107, mientras el resto añadirán a este modelo inicial el 
concepto de correlación estudiado anteriormente para intentar conseguir un mejor 
modelo de predicción. El modelo 1 cuenta con la correlación con el IBEX, el modelo 2 
con el 233, y el modelo 3 con la correlación con ambas. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
3 
Isabel Vegas Villalmanzo 
La estructura de los distintos modelos tendrá como base la del modelo inicial, que consta 
de una matriz X compuesta por diversos indicadores técnicos y los valores de precio del 
valor a predecir (107) anteriores. Y también, del vector de precios a estimar Y desplazado 
hacia delante z minutos según tratemos de predecir a 5, 10, 15 ó 20 minutos. Además, 
para cada uno de estos modelos iniciales de predicción a 5, 10, 15 y 20 minutos, se 
tomarán muestras de 30, 60, 90, 120 y 180 minutos empezando todas ellas en el mismo 
momento, con valores de minuto en minuto. El resto de los modelos añadirá 
respectivamente en la matriz X, la columna de precios del valor o valores 
correlacionados adelantados en mayor o menor medida. Todas estas opciones de 
estructura de datos se evaluarán con los siguientes algoritmos: lineal, máquina de 
vectores de soporte y random forest. 
 
Después de elaborar los modelos de minería de datos para cada uno de los casos 
anteriores, hay que comprobar su validez y eficacia para ver si son precisos y confiables. 
Se ha establecido un criterio general de validación. Consiste en el reprocesamiento del 
modelo con una muestra de los 10 minutos siguientes de valores de X de cada estructura 
dedatos, obteniéndose un vector de precios estimados. Como los datos usados son 
datos históricos, conocemos también el vector de precios reales y, por lo tanto, seremos 
capaces de calcular el error existente entre los valores predichos y los reales. Este error 
se calcula mediante la raíz del error cuadrático medio (RMSE), ampliamente usado en 
machine learning. El cálculo del error tendrá una doble función: validación del modelo, 
y criterio de selección del mejor modelo de predicción (a menor error, mejor predicción). 
 
Una vez se han elaborado y validado todos los casos de modelos de minería de datos 
previamente descritos, se analizan los resultados conseguidos. Algunas de las 
conclusiones obtenidas son: 
 
- El error obtenido es manejable desde un punto de vista operativo, situándose en 
torno a 0.002-0.04, equivalente al 0.03-0.6%. 
- Los modelos no lineales ofrecen mejores resultados que los lineales. Siendo 
significativamente menor el error de predicción al emplear el algoritmo no lineal 
random forest en todos los casos. 
- En general, los modelos muestran limitaciones a la hora de predecir un cambio 
abrupto de tendencia, aumentando el error en estos casos. 
- Los modelos de predicción a 5 minutos estiman notablemente mejor estos 
cambios de tendencia que los que son a más tiempo (10, 15 y 20 minutos). 
- Es conveniente emplear modelos que incluyan los precios de un valor 
correlacionado con el que se quiere estimar, ya que mejoran el modelo en mayor 
o menor medida. Además, pueden ayudar a predecir mejor los cambios bruscos 
de tendencia. 
 
 
2. Índice 
4 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
2. ÍNDICE 
 
1. Resumen .................................................................................................................................... 1 
2. Índice ......................................................................................................................................... 4 
3. Introducción .............................................................................................................................. 5 
4. Objetivos ................................................................................................................................... 7 
5. Metodología .............................................................................................................................. 8 
5.1. Definición del problema ..................................................................................................... 9 
5.2. Preparación de los datos .................................................................................................. 10 
5.3. Exploración de los datos................................................................................................... 11 
5.4. Generar modelos .............................................................................................................. 12 
5.5. Explotación y validación de los modelos .......................................................................... 13 
5.6. Implementar y actualizar los modelos ............................................................................. 13 
6. Resultados y discusión ............................................................................................................ 14 
6.1. Definición del problema ................................................................................................... 14 
6.2. Preparación de los datos .................................................................................................. 14 
6.3. Exploración de los datos................................................................................................... 17 
6.4. Generación de modelos ................................................................................................... 61 
6.5 Validación de los modelos ................................................................................................. 67 
7. Conclusiones............................................................................................................................ 69 
8. Líneas futuras .......................................................................................................................... 76 
9. Bibliografía .............................................................................................................................. 77 
10. Planificación temporal y presupuesto ................................................................................... 81 
11. Índice de figuras .................................................................................................................... 84 
 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
 
5 
Isabel Vegas Villalmanzo 
3. INTRODUCCIÓN 
El High Frecuency Trading (HFT), también conocido como Low Latency Trading es un 
subconjunto del Algorithmic Trading caracterizado por el uso de ordenadores que 
aplican algoritmos informáticos que analizan e interpretan las señales y condiciones del 
mercado a gran velocidad y, en respuesta a las mismas, introducen órdenes de compra 
y venta en el mercado de manera automática en un período de tiempo muy corto. Esta 
velocidad de procesamiento actualmente ronda los milisegundos. Por lo tanto, para ser 
considerado un High Frecuency Trader debe emplear tecnología con muy baja latencia 
(tiempo que pasa desde que se trasmite la orden hasta que esta se ejecuta), una 
conexión de alta velocidad y bajo retardo al mercado para la introducción de órdenes y 
un alta tasa de envío de órdenes y cancelación de las mismas. [1], [2] 
 
De esta forma, el HFT se basa en la utilización de una tecnología avanzada para llevar a 
cabo estrategias de negociación tradicionales. Principalmente, se centra en aquellas que 
tienen como objetivo aprovechar oportunidades de inversión en un breve plazo de 
tiempo, como por ejemplo la creación de mercado o el arbitraje. En ambas, se obtiene 
por cada transacción un estrecho margen de beneficio en un pequeño periodo de 
tiempo, por lo que se realizan millones de operaciones diarias que generan un gran 
volumen de beneficios por acumulación. [1] Así, la introducción de órdenes con una baja 
latencia y la alta velocidad de conexión son aspectos fundamentales en el HFT. 
 
Desde que en 1998 la Securities and Exchange Commission (SEC) de EE.UU. autorizó los 
intercambios electrónicos, se tiene constancia de la existencia del HFT. [3] Inicialmente, 
las operaciones tardaban de media varios segundos y han ido disminuyendo a lo largo 
del tiempo con el avance de la tecnología. En 2007 y 2008 la respuesta era de entre 2 y 
3 milisegundos (0,002-0,003 segundos) y en el 2010 el tiempo entre el envío de una 
orden y su cancelación había disminuido a un microsegundo (0,0000001 segundos). [2] 
 
Actualmente, existe una competición entre los High Frecuency Traders para conseguir 
las maquinas más avanzadas y las conexiones más rápidas, empleando el software más 
rápido y avanzado que sean capaces de diseñar. Una de las estrategias es la disminución 
de la distancia entre el servidor de la plataforma de negociación y el del trader, 
reduciendo el tiempo de conexión con lo que se puede operar con mayor agilidad y 
rapidez al reducir la latencia de las órdenes. Para conseguir esto hay que utilizar los 
servicios de co-location que ofrecen las propias bolsas. En ellos, se alquila parte de la 
infraestructura del data center, pudiendo colocar el servidor del trader a poca distancia 
del propio servidor de la bolsa. De esta forma, las plataformas de negociación (bolsas) 
venden una mejora en la conexión al mercado, siendo en este caso, punto a punto y con 
un tiempo de respuesta menor de una centésima de milisegundo. Si no se usara este 
servicio, una conexión mediante Ethernet tendría una respuesta de 2 ó 3 milisegundos 
en entorno metropolitano.[1], [4] 
 
3. Introducción 
6 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
Como podemos apreciar, esta es una ventaja competitiva clave para el HFT; pero al ser 
empleada por todos los agentes que participan en este tipo de mercado, no constituye 
una ventaja real, sino que es un requerimiento básico para poder actuar en él. Además, 
tampoco existe la posibilidad de una mejora futura en la conexión a la plataforma de 
negociación, no es posible colocar los servidores más próximos. Por lo que no se puede 
conseguir una menor latencia por este método. Todo esto indica que podría haberse 
llegado al desarrollo tecnológico máximo en reducción del tiempo de latencia de la 
conexión. 
 
La única manera entonces de conseguir una ventaja competitiva será mejorando los 
algoritmos informáticos que analizan e interpretan las señales del mercado, y tratando 
así de predecir cómo va a evolucionar este para poder posicionarte antes que tus 
competidores. 
 
Para tratar la cantidad ingente de datos generados por la actividad bursátil se emplean 
técnicas de minería de datos. Estas técnicas, casi automáticas, evitan la utilización de la 
gran cantidad de analistas necesarios tradicionalmente. Estos datos han sido 
históricamente analizados mediante técnicas de análisis estadístico, las cuales parten de 
una hipótesis inicial. Pero en minería de datos, no es necesario plantear ninguna, ya que 
mediante las herramientas de minería se pueden descubrir, entre otros, relaciones entre 
los datos o patrones de cambio de comportamiento. Con estas técnicas se pueden crear 
finalmente modelos predictivos sobre la evolución de los datos. [5] 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
 
7 
Isabel Vegas Villalmanzo 
4. OBJETIVOS 
El objetivo principal es construir un modelo de predicción de precios de valores 
bursátiles mediante minería de datos. 
 
Se tratará de estimar valores con una frontera de unos minutos, de forma que la 
conexión física entre servidores no sea tan determinante. Si somos capaces de predecir 
el precio de un valor con una cierta robustez a lo largo del tiempo, la ventaja que se 
obtiene con la proximidad de conexión o con posibles mejoras de la tecnología se hace 
no significativa. 
 
Para conseguir esto se analizarán los datos históricos intradía de diferentes valores con 
el fin de encontrar: 
- Relaciones existentes entre distintos valores bursátiles (correlaciones). De esta 
forma un determinado valor podría ser predictor adelantado/ retrasado de otro 
valor o confirmador de la tendencia. 
 
- Evolución de un valor basado en los propios datos anteriores de ese valor. 
 
- Evolución de un valor a partir de lo que nos indican diversos indicadores técnicos, 
como osciladores, indicadores de tendencia e indicadores de volatilidad. 
 
Se analizarán distintos tipos de modelos para encontrar el que se ajuste más a la 
realidad. 
 
 
 
 
 
 
 
 
 
 
 
 
 
5. Metodología 
8 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
5. METODOLOGÍA 
La minería de datos es el estudio y tratamiento de datos masivos para extraer 
conclusiones e información relevante. Normalmente, esto no es posible mediante la 
exploración de datos que se usa tradicionalmente debido a la complejidad de las 
relaciones existentes entre los datos o por la ingente cantidad de los mismos. Por contra, 
la minería de datos reúne las ventajas de diferentes áreas como la Estadística, la 
Computación Gráfica, la Inteligencia Artificial, las bases de datos y el procesamiento 
masivo de datos. [6], [7], [8] 
 
Por lo tanto, la minería de datos trata de deducir los patrones y tendencias que existen 
en los datos mediante la elaboración de modelos. Dependiendo de los diferentes 
escenarios a los que se aplique la minería de datos se puede obtener información con 
distinta funcionalidad. A continuación, se muestran los tipos de modelos principales que 
se pueden conseguir mediante la minería de datos: 
 
1. Modelos descriptivos: 
- Reglas de asociación 
- Agrupamientos (clustering) 
- Secuencias 
 
2. Modelos predictivos: 
- Clasificaciones 
- Pronósticos 
Esta información puede ser de gran importancia en áreas como la medicina, sector 
financiero, industria minorista o la industria de las telecomunicaciones. [7], [8] 
 
La generación de modelos de minería de datos forma parte de un proceso mayor que va 
desde la definición del problema que se quiere resolver, hasta la implementación y 
validación del modelo pasando por distintas etapas. 
 
 El proceso de minería de datos consta de los siguientes pasos: 
1. Definición del problema 
2. Preparación de los datos 
3. Exploración de los datos 
4. Generar modelos 
5. Explotación y validación de los modelos 
6. Implementar y actualizar modelos 
A continuación, se ilustra (ver Figura 1) el proceso de la minería de datos, donde 
asumimos que ya se ha definido previamente el problema a resolver. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
9 
Isabel Vegas Villalmanzo 
 
Figura 1: Representación del proceso de la minería de datos. Fuente: elaboración propia basado en [8]. 
Como se puede observar en el diagrama anterior, el proceso de minería de datos es 
cíclico. Lo que indica que la elaboración e implementación de modelos de minería de 
datos se realiza de forma iterativa y dinámica. [8] 
 
5.1. Definición del problema 
Es el primer paso del proceso de minería de datos. Consiste en definir unívocamente el 
problema que vamos a tratar de responder y considerar diversas formas de solucionarlo 
con los datos disponibles. 
 
Es primordial en esta etapa ser capaces de entender el ámbito en el que queremos usar 
la minería de datos para poder definir con claridad el problema. También hay que fijar 
las métricas con las que se evaluará el modelo y definir los objetivos concretos de la 
minería de datos. Para conseguirlo se suelen emplear preguntas como las siguientes: 
 
- ¿Qué se está buscando? ¿Qué tipos de relaciones se intenta buscar? 
- ¿Se desea realizar predicciones a partir del modelo de minería de datos o 
solamente buscar asociaciones y patrones interesantes? 
- ¿Qué información exactamente desea predecir? 
- ¿Qué tipo de datos tiene y qué información contienen? ¿Tiene una cantidad de 
datos suficiente? 
- ¿Cómo se relacionan los diferentes datos que tiene? ¿Se necesita limpiar, 
agregar o procesar los datos antes de usarlos? 
- ¿Cómo se distribuyen los datos? ¿Son estacionales? ¿Representan con precisión 
los procesos de la empresa? 
 
Como podemos deducir de las anteriores preguntas, es básico saber cuáles son los datos 
disponibles. Si estos son suficientes para resolver el modelo o si no lo son, que otro tipo 
sería necesario. Para conocer esta información puede que sea imprescindible desarrollar 
un estudio de disponibilidad de datos. Si los datos que somos capaces de obtener no 
resuelven el problema establecido, habrá que volver a definir el proyecto. 
5. Metodología 
10 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
Una vez definido el problema y habiendo pasado a otras etapas posteriores del proceso 
de la minería de datos, puede que se descubra que los datos resultan insuficientes para 
crear los modelos y que, por tanto, sea necesario buscar más datos (ver Figura 2). 
También puede ocurrir que se puedan generar modelos pero que estos no respondan 
adecuadamente al problema planteado inicialmente, por lo que habrá que volver a 
definir el problema de nuevo. Además, es posible que haya que actualizar los modelos 
implementados cuando dispongamos de nuevos datos. [8] 
 
 
 
 
Figura 2: Etapas del proceso de minería de datos sensibles a problemas con los datos. Fuente: elaboración propia 
basado en [8] 
 
5.2. Preparación de los datos 
La preparación de los datos,que es la segunda fase del proceso, consiste en consolidar 
y limpiar los datos de la etapa previa. Las técnicas de preparación de datos disminuyen 
la cantidad y mejoran la calidad del conjunto de datos, de esta forma se podrán elaborar 
modelos que generen mayor y mejor información. [8], [9] 
 
Es importante que esta etapa se desarrolle antes de empezar a generar los modelos. Si 
los datos están incompletos, incorrectos o existen entradas estrechamente 
correlacionadas que parecen independientes, pueden influir en los resultados 
generados por el modelo de forma inesperada. 
 
 En la minería de datos se suele trabajar con grandes conjuntos de datos que no pueden 
ser comprobados en cada transacción, por lo que han de procesarse previamente de 
manera minuciosa. [8] 
 
 
Definir el 
problema
Preparar datos
Explorar datos
Generar 
modelos
Validar 
modelos
Implementar y 
actualizar 
modelos
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
11 
Isabel Vegas Villalmanzo 
Para llevar a cabo una correcta preparación de datos habrá que realizar las siguientes 
técnicas: 
 
1. Data collecting and integration 
Recopilación de los datos de distintas fuentes de información resolviendo problemas 
de representación y codificación. Integración de los mismos desde diferentes tablas 
para crear una información lo más homogénea posible. 
 
2. Data cleaning 
Se centra en solucionar los conflictos que aparecen en los datos. Para lograrlo 
elimina valores atípicos, chequea y resuelve problemas de ruido, valores perdidos, 
etc. 
 
3. Data transformation 
Los datos se transforman a la forma más apropiada para la extracción de información 
del modelo. Esto se puede realizar mediante operaciones de agregación, 
sumarización de datos o normalización, entre otras. 
 
4. Data reduction 
Consiste simplemente en seleccionar y mantener las variables relevantes para el 
proceso de minería de datos. Para ello se emplean técnicas como la selección de 
características, la discretización o la selección de instancias. 
 
No siempre será necesario el empleo de todas las técnicas. Cada base de datos es 
totalmente distinta de las demás, por lo que las técnicas a usar en cada una difieren. [9] 
 
5.3. Exploración de los datos 
El tercer paso consiste en la exploración de los datos previamente preparados. Hay que 
conocer los datos para poder tomar decisiones adecuadas al crear los modelos de 
minería de datos y saber si estos son capaces de resolver el problema establecido. 
 
Para explorar los datos que tenemos existen numerosas técnicas que incluyen el cálculo 
de: 
 
- Valores máximos y mínimos 
- Media 
- Desviación estándar 
- Distribución estándar 
- Correlación lineal de Pearson 
- Etc. 
 
 
5. Metodología 
12 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
Con estas técnicas se podrá determinar con exactitud la información que nos 
proporcionan estos datos y si son los indicados para resolver nuestro problema. Por 
ejemplo, con los valores de máximo, mínimo y media se podría determinar si los datos 
no son representativos y por lo tanto no son útiles para el problema definido. Por otra 
parte, si los datos presentan una desviación estándar grande puede indicar que para 
mejorar el modelo sea necesario agregar más datos; y si los datos se desvían mucho de 
una distribución estándar se podrían sesgar o representar una imagen precisa de una 
cierta situación real que dificulte el ajuste del modelo a los datos. [8] 
 
5.4. Generar modelos 
Un modelo de minería de datos consiste en el análisis de una estructura de minería de 
datos mediante la aplicación de un algoritmo concreto. Por lo general, se pueden usar 
los mismos datos para crear varios modelos empleando distintos algoritmos, pero en 
cada uno de ellos los datos se organizan con una estructura diferente. Cada tipo de 
modelo crea un conjunto diferente de patrones, reglas o fórmulas que se puede usar 
para realizar predicciones. 
 
El procesamiento de un modelo suele denominarse entrenamiento, haciendo referencia 
al proceso de aplicar un algoritmo matemático concreto a los datos de la estructura para 
extraer patrones. Los patrones encontrados dependerán, por tanto, de la selección de 
datos del entrenamiento, del algoritmo escogido y su configuración. [8], [10] 
 
La estructura y el modelo de minería de datos son objetos independientes. La estructura 
de minería de datos almacena la información que define el origen de datos, y está 
formada solo por las columnas de datos seleccionadas para usarse en el análisis. Por 
otra parte, un modelo de minería de datos almacena la información derivada del 
procesamiento estadístico de los datos, como por ejemplo los patrones encontrados 
como resultado del análisis. Este modelo está vacío hasta que los datos que proporciona 
la estructura de minería de datos se procesan y analizan. El algoritmo calcula un 
conjunto de estadísticas de resumen que describen los datos, identifica las reglas y los 
patrones en los datos, y después usa dichas reglas y patrones para rellenar el modelo. 
Una vez procesado contiene los metadatos, resultados y enlaces a la estructura de 
minería de datos. Los metadatos especifican el nombre del modelo y el servidor donde 
está almacenado, así como una definición del mismo, incluidas las columnas de la 
estructura de minería de datos que se usaron para generarlo y el algoritmo empleado. 
[10] 
 
Es importante recordar que siempre que los datos cambian, se debe actualizar la 
estructura y el modelo de minería de datos volviendo a procesarlo. [8] 
 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
13 
Isabel Vegas Villalmanzo 
5.5. Explotación y validación de los modelos 
 
La quinta fase del proceso consiste en explorar los modelos de minería de datos que se 
han generado y comprobar su validez y eficacia. Es importante validar los modelos antes 
de implementarlos en un entorno de producción, evaluando la calidad y las 
características obtenidas, para ver si son capaces de resolver satisfactoriamente el 
problema que habíamos planteado. [10] 
 
No hay ninguna regla preestablecida que indique si un modelo es suficientemente 
bueno o si cuenta con suficientes datos, pero se puede definir un criterio de validez 
mediante indicadores de minería de datos. 
 
Estas medidas se suelen agrupar en las siguientes categorías: 
 
- Precisión 
Es una medida que indica hasta qué punto el modelo pone en correlación el 
resultado con los atributos de los datos que se han proporcionado. 
 
- Confiabilidad 
Evalúa la manera en la que se comporta un modelo de minería de datos en 
conjuntos de datos diferentes. El modelo es confiable si genera el mismo tipo de 
predicciones o encuentra los mismos tipos generales de patrones 
independientemente de los datos de prueba que se proporcionen. 
 
- Utilidad 
Los indicadores de utilidad muestran si el modelo proporciona información útil. 
 
Algunas herramientas de validación ampliamente usadas en minería de datos son: 
gráficas de dispersión, validación cruzada de conjuntos de datos, creación de particiones 
de los conjuntos de prueba y entrenamiento y reprocesamiento del modelo con ellas, 
etc. [10] 
 
5.6. Implementar y actualizar los modelos 
 
El último paso del proceso de minería de datos consiste en implementar los modelos 
que funcionan mejor en el entorno de producción, y actualizarlos a medida que se 
reciben más datos. Una vez implantados desarrollaran la tarea para la que han sido 
elaborados. Además, parte de la estrategia de implementación será la actualización 
dinámica de los modelos, cuando se consigan nuevos datos, y realizar modificaciones 
constantes en los modelos para mejorar la efectividad. [8] 
 
 
 
 
6. Resultados y discusión 
14 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
6. RESULTADOSY DISCUSIÓN 
Vamos a mostrar la aplicación de la minería de datos, usando el programa R, para el caso 
específico de este trabajo fin de grado. Para ello, se lleva a cabo el proceso de minería 
de datos pasando por las distintas etapas previamente descritas. 
 
6.1. Definición del problema 
 
Ante la competición existente entre los High Frecuency Traders por una tecnología de 
conexión y procesamiento lo más rápida posible, vamos a elaborar un modelo de 
minería de datos que sea capaz de predecir a unos pocos minutos los precios de valores 
bursátiles. De esta forma, al ser posible predecir valores con un período de tiempo tan 
considerable para el HFT, las mejoras tecnológicas se hacen irrelevantes. Esto se debe a 
que las operaciones en este mercado se realizan en fracciones de segundo, y si somos 
capaces de saber cómo se comportará el valor dentro de unos minutos podremos 
posicionarnos previamente, sin necesidad de tener la mejor conexión o el 
procesamiento más rápido. 
 
Para lograrlo, analizaremos los datos históricos intradía de diferentes valores para 
encontrar los patrones de comportamiento y las relaciones entre ellos que se producen 
a lo largo del tiempo, y así, elaborar un modelo de predicción de minería de datos. La 
calidad de este modelo se evaluará realizando una predicción de los precios de un valor 
durante 10 minutos, con una muestra tomada unos minutos antes de los datos 
históricos intradía. Se comprobará el error de estimación obtenido al comparar la 
predicción con los datos intradía originales. 
 
Se ha realizado un estudio de disponibilidad de datos para comprobar que tenemos 
información suficiente para elaborar el modelo. 
 
Contamos con los datos intradía de OHLC (Open-High-Low-Close- Volume) a un minuto, 
y de quotes (Bid - Ask ,Bid Volume – Ask Volume) y trades (Price-Volume) a cada segundo 
de 6 valores de la Bolsa de Madrid durante todos los días del mes de marzo de 2014 en 
los que la Bolsa estuvo abierta. Además, contamos con los datos OHLC del indicador IBEX 
para el mismo periodo de tiempo. [11] 
 
Estos datos deberán pasar por una etapa de preparación previa para poder emplearlos 
en el modelo de predicción. 
 
6.2. Preparación de los datos 
 
En esta fase del proceso de minería de datos vamos a emplear diferentes técnicas de 
preparación de datos para mejorar la calidad del conjunto de datos, y poder así, elaborar 
un modelo que genere mayor y mejor información. Los datos que se van a preparan son 
aquellos que hemos comentado en la etapa previa. Todos ellos son series temporales 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
15 
Isabel Vegas Villalmanzo 
en formato Excel con una estructura en la que las distintas variables se sitúan en 
diferentes columnas (ver Figura 3). 
 
 
Date Time X1 X2 X3 … 
03/03/2014 9:00:00 … … … … 
… … … … … … 
 
Figura 3: Estructura de los datos. Fuente: elaboración propia. 
Siendo X1, X2,… variables como: precio, volumen, etc. 
Para preparar los datos hemos realizado los siguientes pasos: 
 
1. Homogeneización del formato 
El formato del todas las variables tiene que ser el mismo, por esta razón, en este 
paso nos aseguramos que todos los datos cumplan con los mismos criterios. 
 
Hemos tenido que ajustar el formato en algunas variables para que cumplan con el 
criterio establecido: usar como separador decimal “.” y como separador de miles “,”. 
 
2. Transformación a una base de tiempo común 
Para poder usar los paquetes de R necesarios, la parte temporal de las series 
temporales tiene que formar un vector de una única columna. Esto se consigue 
juntando las columnas Date y Time en una sola, y transformándola en la clase 
POSIXct de R. Esta clase se estructura de la siguiente forma: [12] 
 
"2014-03-03 09:00:00 CET" 
La clase POSIXct deriva del sistema POSIX, que es una norma escrita por la IEEE. 
3. Homogeneización de la serie temporal 
En algunas ocasiones, las series cuentan con más de un valor de precio para un 
mismo instante de tiempo. Para poder emplearlo en etapas futuras, es necesario 
reducirlo a un único valor de precio para cada momento (ver Figura 4). 
 
Figura 4: Esquema homogeneización de series temporales. Fuente: elaboración propia. 
6. Resultados y discusión 
16 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
Para homogeneizar calculamos la media ponderada de precios (Pt) empleando la 
siguiente fórmula (ver Ecuación 1): 
 
Ecuación 1: Media ponderada de precios para el instante t. Fuente: elaboración propia. 
Donde Pt,i es el precio de acuerdo i en el instante t y Volt,i es el volumen de acciones 
intercambiadas en el acuerdo i en el instante t. Este valor Pt será el nuevo precio 
medio en cada instante t. 
4. Interpolación de la serie temporal 
Como los acuerdos de compra y venta no se realizan regularmente, no tenemos 
datos en todo momento. Para solucionar el problema, hemos supuesto que si no se 
ha realizado acuerdo el precio del valor será el mismo que el del último precio 
negociado. De esta forma, se mantiene el precio del valor a lo largo del tiempo hasta 
que haya otro acuerdo. Cuando se realice este, se actualiza el precio a ese último 
valor, y así sucesivamente. 
 
5. Eliminación de los 5 primeros y últimos minutos de la serie temporal 
Contamos con datos de valores bursátiles de la bolsa de Madrid, que forman parte 
de las Bolsas y Mercados Españoles (BME), donde se opera con el siguiente horario 
(ver 
Figura 5) [13]: 
 
Subasta de Apertura De 8:30 h a 9:00 h 
Mercado Abierto De 9:00 h a 17:30 h 
Subasta de Cierre De 17:30 h a 17:35 h 
 
Figura 5: Horarios de apertura de BME. Fuente: elaboración propia basado en [13] 
 
Para el análisis que vamos a realizar nos interesa usar solamente datos del mercado 
cuando este está abierto. Además, vamos a descartar los 5 minutos iniciales y finales 
debido a la influencia de la subasta de apertura y la de cierre a la actividad del 
mercado (ver Figura 6). 
 
 
 
 
 
Figura 6: Esquema de un día de mercado bursátil en BME. Fuente: elaboración propia. 
Subasta de Apertura Subasta de Cierre 
Mercado Abierto 
5 primeros min influenciados 
por la Subasta de Apertura 
5 últimos min influenciados 
por la Subasta de Cierre 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
17 
Isabel Vegas Villalmanzo 
La subasta de apertura se realiza cada día para asegurar la correcta formación de los 
precios durante los períodos en los que no hay mercado abierto. Consiste en un 
periodo de tiempo en el que los inversores tienen la posibilidad de colocar órdenes, 
modificarlas o eliminarlas. También se incluye en esta subasta aquellas órdenes de 
días anteriores que no se han ejecutado y que siguen siendo válidas en esa jornada. 
En cuanto a la subasta de cierre, esta se realiza para asegurar que el precio de cierre 
sea significativo de lo ocurrido durante la sesión. Esto se debe a que es ampliamente 
usado como precio de referencia, como por ejemplo para la valoración de fondos y 
sociedades de inversión entre otros. 
Este precio de equilibrio de la subasta no se origina por la fluctuación propia del 
mercado, sino por un precio de equilibrio fijado. Las subastas dentro del SIBE 
(Sistema de Interconexión Bursátil Español) cuentan con un cierre aleatorio de 
máximo 30 segundos, en los cuales en cualquier momento puede acabar la subasta 
sin previo aviso. A partir de ese momento no se pueden añadir, modificar o eliminar 
órdenes. Al terminar la subasta se produce la asignación de títulos al último precio 
de equilibrio. Este se calcula mediante un algoritmo basado en 4 reglas para 
garantizar la formación de un precio eficiente, es decir, el precio al que se pueden 
casar el mayor número de órdenes. 
Esta es la razón por la que eliminamos los primeros y últimos 5 minutos de lajornada 
de mercado abierto. Al estar el precio de equilibrio calculado por un algoritmo no 
refleja la evolución propia del mercado. [14] 
 
6.3. Exploración de los datos 
La finalidad de la etapa de exploración de los datos es determinar con exactitud la 
información que nos proporcionan los datos previamente preparados. Para ello, vamos 
a analizar los distintos valores en busca de: 
1. Conocer los propios valores 
En este análisis se busca conocer más a fondo los distintos valores bursátiles de los 
que disponemos. Se calcularán con R diferentes indicadores técnicos con el fin de 
ver la evolución a lo largo del tiempo de los movimientos que realizan las 
cotizaciones. 
 
Los diferentes valores de nuestra base de datos se denominan por los números: 70, 
107, 140, 160, 233 y 285; y el indicador IBEX por: IBEX. 
 
Para todos ellos se calculan los siguientes indicadores técnicos: 
 
- Osciladores 
- RSI (Relative Strength Index): es un indicador que muestra en cada 
momento la fuerza entre compradores y vendedores. Es un oscilador 
normalizado basado en la variación de los precios en un periodo 
6. Resultados y discusión 
18 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
determinado. Su mejor comportamiento se alcanza cuando llega a los 
niveles de sobrecompra o de sobreventa. Generalmente, para su cálculo 
se utilizan periodos de 14 sesiones, que son el número de días sobre los 
que hay que calcular la variación del precio. Este periodo es el que 
determina la sensibilidad, ya que cuanto menor es este, menos fiables 
son las señales. Para calcularlo, primero se obtienen las medias móviles 
exponenciales a 14 sesiones sobre las series de valores U (up) y D (down). 
A partir de U y D se calcula así la fuerza relativa RS (ver Ecuación 2), y con 
ella finalmente el oscilador RSI (ver Ecuación 3). [15], [16] 
 
 
 
 
Ecuación 2: Medias móviles exponenciales U y D de 14 sesiones. Fuente: [16] 
 
Ecuación 3: Oscilador RSI. Fuente: [16] 
- Momentum: es un indicador tipo oscilador que muestra la tendencia que 
llevan los precios de un activo y los cambios que ha tenido en un 
determinado tiempo. Se usa para anticipar los cambios de tendencia y 
mostrar la velocidad del cambio en los precios. Consiste en observar la 
diferencia de precios entre el cierre del periodo actual y el de hace n 
periodos, que generalmente suele ser de 5 ó 10 periodos (ver Ecuación 
4). 
 
Ecuación 4: Oscilador Momentum. Fuente: [16] 
Se puede ver gráficamente como una línea que oscila alrededor de una 
línea neutra de valor cero. Señala el “momento” de la acción o el índice, 
mostrando el grado de velocidad y su dirección. [16] 
 
- SMI (Stochastic Momentum Index): es una variante del oscilador 
estocástico en la que su cálculo se basan en la posición del precio de 
cierre respecto a un punto medio entre el mínimo más bajo y el máximo 
más alto. Este indicador suele venir acompañado por una línea de señal 
(signal) que es una media exponencial móvil de los últimos periodos. El 
cruce entre SMI y la señal nos proporciona información sobre la 
divergencia, tendencia y estado de sobreventa/ sobrecompra. [17] 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
19 
Isabel Vegas Villalmanzo 
 
- MACD (Moving Average Convergence Divergence) muestra la diferencia 
entre dos medias móviles, concretamente, dos medias móviles 
exponenciales de 26 y 12 períodos, respectivamente. A este indicador se 
le suele añadir la denominada línea de señal (signal) que no es más que 
una media móvil exponencial de 9 periodos. Ambos indicadores, el MACD 
y la señal, se mueven en torno a una línea en cero. El MACD se representa 
como un gráfico de barras verticales mientras que la línea de señal como 
una media móvil del gráfico de barras verticales, dibujada como una línea 
con trazado discontinuo. Este indicador es usado tanto para señalar la 
tendencia como para mostrar el ímpetu (momentum) del movimiento, 
pudiéndose obtener señales de cruzamiento, estado de 
sobrecompra/sobreventa y divergencia. [18], [19], [20] 
 
- Indicadores de tendencia: 
 
- WMA (Weighted Moving Average): mide el movimiento medio de los 
precios para un periodo de tiempo determinado. Este indicador suaviza 
los datos de precio, dando más importancia a los datos más recientes, de 
forma que se pueden ver las tendencias. [21] 
 
- ADX (Average Directional Index): es un indicador que trata de evaluar la 
fuerza de la tendencia existente en el mercado. Su objetivo es intentar 
determinar si el mercado se encuentra en tendencia o en rango y, en caso 
de encontrarse en tendencia, la fuerza de la misma. Además, el ADX nos 
informa acerca del tipo de tendencia predominante del mercado por 
medio de los indicadores de movimiento positivo /negativo +DI y -DI. El 
cálculo de este indicador es complejo, requiriendo dos etapas de 
suavizado de datos. [22] 
 
- SAR (Stop and Reverse) Parabólico: Este indicador sigue el precio 
conforme la tendencia se extiende a través del tiempo, mostrándose por 
encima del precio cuando este se encuentra al alza y debajo cuando se 
mueve a la baja. Si la tendencia del mercado cambia, el indicador se 
detiene y cambia su dirección. El cálculo del SAR Parabólico es bastante 
complejo ya que incluye variables if/then que dificultan el uso de hojas 
de cálculo a diferencia de otros indicadores cuya fórmula de cálculo es 
mucho más sencilla. [23] 
 
- Indicadores de volatilidad: 
- Bollinger Bands: es un indicador técnico cuyo principal uso es medir la 
volatilidad del mercado así como determinar zonas de soporte y 
resistencia. Está formado por tres líneas: central, superior e inferior. La 
línea central se calcula tomando una media móvil simple de los precios 
6. Resultados y discusión 
20 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
de un valor durante un período dado, normalmente 20 ó 21 días. Una vez 
que la línea central se calcula, se obtiene la desviación estándar que se 
multiplica por dos. Esta desviación estándar se suma o resta a la línea 
central, obteniéndose las líneas superior e inferior de las bandas de 
Bollinger. Las bandas se expanden cuando el activo se hace más volátil, y 
se contraen cuando se convierte en uno menos volátil. [24] 
 
- Volatility: Este indicador de volatilidad compara la diferencia entre el 
máximo y el mínimo de un valor mediante el cálculo de la tasa de cambio 
de la media móvil de la diferencia entre el máximo y el mínimo. Así, la 
volatilidad se mide como una variación del rango máximo y mínimo. 
Cuanto mayor sea el indicador, mayor sea esta variación, y por tanto, 
mayor será la volatilidad. [25] 
 
- ATR (Average True Range): es un indicador que mide la volatilidad de los 
precios, pudiéndose estimar cuánto se moverá el precio en un día normal 
de mercado. El ATR se construye a partir del rango verdadero (true range) 
cuyo valor es el más grande entre los 3 siguientes (caso alcista): máximo 
de hoy menos mínimo de hoy, máximo de hoy menos cierre de ayer, o 
cierre de ayer menos mínimo de hoy. Para calcularlo se realiza un 
promedio entre los rangos promedios de varias sesiones (ver Ecuación 5), 
siendo los periodos de cálculo más comunes de 14 ó 20 sesiones. [26] 
 
 
Ecuación 5: Indicador de volatilidad ATR. Fuente: [26] 
 
A continuación, se muestran las gráficas de cada valor con los distintos indicadores 
para todo el mes del que disponemos datos (03/2014). 
 
 
 
 
 
 
 
 
 
 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
21 
Isabel Vegas Villalmanzo 
VALOR 70 
- Osciladores 
 
Figura 7: Osciladores RSI, Momentum, MACD y SMI del valor 70. Fuente: elaboración propia. 
- Indicadores de tendencia 
 
Figura 8: Indicadores de tendencia WMA, ADX y SAR del valor 70. Fuente: elaboración propia. 
6. Resultados y discusión 
22 
EscuelaTécnica Superior de Ingenieros Industriales (UPM) 
- Indicadores de Volatilidad 
 
Figura 9: Indicadores de volatilidad Bollinger Bands, Volatility y ATR para el valor 70. Fuente: elaboración propia. 
VALOR 107 
- Osciladores 
 
Figura 10: Osciladores RSI, Momentum, MACD y SMI del valor 107. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
23 
Isabel Vegas Villalmanzo 
- Indicadores de tendencia 
 
Figura 11: Indicadores de tendencia WMA, ADX y SAR del valor 107. Fuente: elaboración propia. 
- Indicadores de volatilidad 
 
Figura 12: Indicadores de volatilidad Bollinger Bands, Volatility y ATR para el valor 107. Fuente: elaboración 
propia. 
6. Resultados y discusión 
24 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
VALOR 140 
- Osciladores 
 
Figura 13: Osciladores RSI, Momentum, MACD y SMI del valor 140. Fuente: elaboración propia. 
- Indicadores de tendencia 
 
Figura 14: Indicadores de tendencia WMA, ADX y SAR del valor 140. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
25 
Isabel Vegas Villalmanzo 
- Indicadores de volatilidad 
 
Figura 15: Indicadores de volatilidad Bollinger Bands, Volatility y ATR para el valor 140. Fuente: elaboración 
propia. 
VALOR 160 
- Osciladores 
 
Figura 16: Osciladores RSI, Momentum, MACD y SMI del valor 160. Fuente: elaboración propia. 
6. Resultados y discusión 
26 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
- Indicadores de tendencia 
 
Figura 17: Indicadores de tendencia WMA, ADX y SAR del valor 160. Fuente: elaboración propia. 
- Indicadores de volatilidad 
 
Figura 18: Indicadores de volatilidad Bollinger Bands, Volatility y ATR para el valor 160. Fuente: elaboración 
propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
27 
Isabel Vegas Villalmanzo 
VALOR 233 
-Osciladores 
 
Figura 19: Osciladores RSI, Momentum, MACD y SMI del valor 233. Fuente: elaboración propia. 
- Indicadores de tendencia 
 
Figura 20: Indicadores de tendencia WMA, ADX y SAR del valor 233. Fuente: elaboración propia. 
6. Resultados y discusión 
28 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
- Indicadores de volatilidad 
 
Figura 21: Indicadores de volatilidad Bollinger Bands, Volatility y ATR para el valor 233. Fuente: elaboración 
propia. 
VALOR 285 
- Osciladores 
 
Figura 22: Osciladores RSI, Momentum, MACD y SMI del valor 285. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
29 
Isabel Vegas Villalmanzo 
- Indicadores de tendencia 
 
Figura 23: Indicadores de tendencia WMA, ADX y SAR del valor 285. Fuente: elaboración propia. 
- Indicadores de volatilidad 
 
Figura 24: Indicadores de volatilidad Bollinger Bands, Volatility y ATR para el valor 285. Fuente: elaboración 
propia. 
6. Resultados y discusión 
30 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
IBEX 
- Osciladores 
 
Figura 25: Osciladores RSI, Momentum, MACD y SMI del IBEX. Fuente: elaboración propia. 
- Indicadores de tendencia 
 
Figura 26: Indicadores de tendencia WMA, ADX y SAR del IBEX. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
31 
Isabel Vegas Villalmanzo 
- Indicadores de volatilidad 
 
Figura 27: Indicadores de volatilidad Bollinger Bands, Volatility y ATR para el valor IBEX. Fuente: elaboración 
propia. 
 
2. Correlaciones 
El estudio de las correlaciones trata de analizar si existen relaciones entre los 
distintos valores bursátiles. Para ello, hemos empleado la correlación lineal de 
Pearson. 
 
La correlación lineal de Pearson calcula el grado de covariación entre distintas 
variables relacionadas linealmente. Si la correlación es muy baja o nula no hay 
correlación lineal, pero esto no significa que no exista ninguna. Puede haber 
variables fuertemente relacionadas, pero no de forma lineal, en cuyo caso no se 
debe aplicar la correlación de Pearson. 
 
Si tenemos dos variables X1 y X2, y definimos el coeficiente de correlación de Pearson 
entre estas dos variables como rxy, entonces: 
 
0≤ |rxy |≤1 
Es decir, el coeficiente de correlación de Pearson oscila entre –1 y +1, este signo 
positivo o negativo hace referencia a la dirección. Un valor de correlación positiva 
indica que en la medida que aumenta una de las variables aumenta la otra, y un valor 
6. Resultados y discusión 
32 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
de correlación negativo que al aumentar una de las variables la otra disminuye en 
igual proporción. [27] 
 
En este estudio hemos considerado que una correlación empieza a ser significativa 
a partir de un valor de |rxy |≥0.5. 
 
Para llevar a cabo el estudio, se realizan 5 experimentos distintos, en cada cuál se ha 
escogido una muestra diferente de los datos. Cada una de las muestras está formada 
por uno de los días de actividad bursátil rodeados en color verde en el calendario 
que se muestra a continuación (ver Figura 28). Se han escogido estos días de forma 
que cada experimento sea lo más aleatorio posible, y así tener una idea general de 
las relaciones que hay entre los valores a lo largo del mes. 
Marzo 2014 
L M X J V S D 
 1 2 
3 4 5 6 7 8 9 
10 11 12 13 14 15 16 
17 18 19 20 21 22 23 
24 25 26 27 28 29 30 
31 
 
Figura 28: Calendario con las muestras escogidas para realizar los experimentos marcadas. Fuente: elaboración 
propia. 
A cada muestra escogida aleatoriamente se le asigna uno de los experimentos de la 
siguiente manera: 
Experimento aleatorio 1 -> muestra 04/03/2014 
Experimento aleatorio 2 -> muestra 12/03/2014 
Experimento aleatorio 3 -> muestra 20/03/2014 
Experimento aleatorio 4 -> muestra 28/03/2014 
Experimento aleatorio 5 -> muestra 31/03/2014 
 
Como los precios de distintos activos no son comparables en una misma gráfica 
precio - tiempo, debido a la diferencia de orden de magnitud, tenemos que 
transformarlos. Calculamos entonces, la variación del precio en cada instante 
respecto del precio medio del día anterior dividido entre el precio medio del día 
anterior (ver Ecuación 6). 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
33 
Isabel Vegas Villalmanzo 
 
Ecuación 6: Variación del precio en cada instante t. Fuente: elaboración propia. 
Siendo Vart la variación del precio en cada instante t (en tanto por uno), Pt el precio 
en cada instante t y Pmedia el precio medio de la jornada bursátil anterior. De esta 
forma, podremos representar en una misma gráfica todos los valores que tenemos 
para ese mismo día, ya que ahora sí, están en el mismo orden de magnitud. 
Cada experimento que se ha desarrollado consiste en: 
1. Gráfico de la variación del precio en cada instante t (Vart) para cada valor. Con 
este gráfico podemos ver visualmente si existe alguna correlación entre los 
valores. 
 
2. Confirmación de la existencia de la relación entre valores mediante el cálculo de 
las correlaciones entre las variaciones de precio de los distintos valores. Se 
emplea el coeficiente lineal de Pearson para calcular la correlación. Además, se 
indican cuales son significativas. 
 
3. Cálculo de las correlaciones al mover una de las dos series temporales hacia 
delante o hacia atrás en el tiempo respecto del resto (lag). Posteriormente, se 
calcula la variación porcentual (en tanto por uno) de este nuevo valor de 
correlación respecto del valor obtenido en el momento inicial t=0, calculado 
anteriormente en el punto 2 (ver Ecuación 7) 
 
Ecuación 7: Variación porcentual del valor de la correlación. Fuente: elaboración propia. 
Con este procedimiento podemos ver si algún valor mantiene constante la 
correlacióna lo largo del tiempo, la mejora o la empeora respecto del valor que 
movemos. 
 
Hay que indicar que, en este estudio de correlaciones, todos los experimentos se han 
realizado tomando una muestra de datos en la que todos los valores presentan 
actividad en el mercado. 
 
A continuación, se expone el resultado de los experimentos: 
 
 
6. Resultados y discusión 
34 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
Experimento aleatorio 1 
En el primer experimento se toma una muestra de datos del día 04/03/2014 de 
11:32:00 a 17:25:00. 
 
En esta primera gráfica de variación del precio – tiempo (ver Figura 29), podemos 
observar que, a priori, existirá una correlación significativa entre los valores IBEX y 
107. También, habrá una correlación, en menor medida, de estos dos valores con el 
233. 
 
La linealidad de la variación de precio a lo largo del tiempo en algunos valores indica 
que no se realizan apenas operaciones de los mismos en el mercado, son valores 
poco líquidos. Como comentamos en la etapa anterior de preparación de los datos, 
se mantiene el precio del último intercambio hasta que ocurre el siguiente y se va, 
de esta manera, actualizando el valor del precio sucesivamente. De ahí la linealidad 
del valor en la gráfica. 
 
Hay que recordar que la variación del precio (Vart) es la variación del precio en cada 
instante respecto del precio medio del día anterior, dividido entre el precio medio 
del día anterior. Esta transformación se ha realizado para que sean representables 
en una misma gráfica todos los valores. Además, el periodo de tiempo escogido es 
aquel en el que todos los valores muestran actividad bursátil. 
 
V
ar
ia
ci
ó
n
 d
el
 p
re
ci
o
 
 
 Tiempo 
 
Figura 29: Gráfica variación del precio- tiempo para el experimento 1. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
35 
Isabel Vegas Villalmanzo 
 
Figura 30: Coeficientes de correlación entre valores del experimento 1. Fuente: elaboración propia. 
 
En la tabla anterior (ver Figura 30) se han calculado los coeficientes de correlación 
entre los distintos valores. En naranja podemos observar las correlaciones que son 
significativas. Aquí se confirman las deducciones que realizamos en la gráfica 
anterior: el valor IBEX y 107 muestran una correlación de valor 0.9556427 (muy 
significativa), mientras que IBEX-233 y 107-233 son de valor 0.5588515 y 0.6946278 
respectivamente. Además, también podemos observar que hay otras muchas 
correlaciones entre valores que no se ven claramente mediante la gráfica variación 
de precio – tiempo. 
 
Si el resultado de la correlación es NA (not available) significa que no hay variación 
en el precio de uno de los dos valores para los que se quiere calcular la correlación. 
Eso es que, no hay variación del precio de ese valor, es constante, como ocurre para 
el valor 140 en este experimento. Para este caso, todas las correlaciones con este 
valor serán NA. 
 
A continuación, se muestra la gráfica de variación porcentual (en tanto por uno) de 
la correlación respecto la inicial entre los distintos valores y el IBEX, al moverse este 
último hacia delante y atrás en el tiempo (lag hacia delante o hacia atrás) (ver Figura 
31). 
 
Cálculo de correlaciones
Pearson's product-moment correlation
data t p-value 95 percent confidence interval sample estimates: cor
PriceIBEX_04 and Price70_04 -108.69 < 2.2e-16 (-0.6069507 , -0.5896603) -0.5983752
PriceIBEX_04 and Price107_04 472.23 < 2.2e-16 (0.9544593, 0.9567960) 0.9556427
PriceIBEX_04 and Price140_04 NA NA NA NA
PriceIBEX_04 and Price160_04 -190.31 < 2.2e-16 (-0.7992497, -0.7893095) -0.7943328
PriceIBEX_04 and Price233_04 98.081 < 2.2e-16 (0.5495207, 0.5680429) 0.5588515
PriceIBEX_04 and Price285_04 123.66 < 2.2e-16 (0.6395972, 0.6552398) 0.6474867
Price70_04 and Price107_04 -84.235 < 2.2e-16 (-0.5109439, -0.4907684) -0.5009242
Price70_04 and Price140_04 NA NA NA NA
Price70_04 and Price160_04 142.57 < 2.2e-16 (0.6928532, 0.7065979) 0.6997903
Price70_04 and Price233_04 -47.43 < 2.2e-16 (-0.3219745, -0.2976272) -0.3098516
Price70_04 and Price285_04 -13.012 < 2.2e-16 (-0.10239342, -0.07567433) -0.08904989
Price107_04 and Price140_04 NA NA NA NA
Price107_04 and Price160_04 -126.39 < 2.2e-16 (-0.6632927, -0.6479378) -0.655683
Price107_04 and Price233_04 140.53 < 2.2e-16 (0.6875933, 0.7015319) 0.6946278
Price107_04 and Price285_04 147.5 < 2.2e-16 (0.7051072, 0.7183948) 0.7118147
Price140_04 and Price160_04 NA NA NA NA
Price140_04 and Price233_04 NA NA NA NA
Price140_04 and Price285_04 NA NA NA NA
Price160_04 and Price233_04 -23.617 < 2.2e-16 (-0.1732672, -0.1470255) -0.1601747
Price160_04 and Price285_04 -52.926 < 2.2e-16 (-0.353596, -0.3298085) -0.341757
Price233_04 and Price285_04 107.06 < 2.2e-16 (0.5837309, 0.6012085) 0.5925394
6. Resultados y discusión 
36 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 31: Variación de la correlación respecto la inicial entre los distintos valores y el IBEX al moverlo hacia delante 
o hacia atrás (lag), en el experimento 1. Fuente: elaboración propia. 
 
Como podemos observar, la variación de la correlación entre 160 e IBEX, al mover 
este último, es bastante robusta a lo largo del tiempo (ver Figura 31). Es decir, la 
relación entre ellos se mantiene en torno a los mismos valores independientemente 
del lag de IBEX. 
 
Por otra parte, el valor de la variación de la correlación entre 107 e IBEX, al mover 
este último, siempre disminuye (ver Figura 31). Por lo tanto, no existe mejor relación 
entre ellos que cuando ambos están en el mismo instante t, o entorno a él. El valor 
107 actuará como confirmador de la tendencia de IBEX, y viceversa, ya que la 
correlación entre ellos es muy alta (0.9556427). 
 
En cuanto a los valores 233 y 70, cuando movemos la serie temporal de variaciones 
de precio del IBEX hacia atrás en el tiempo y calculamos las correlaciones, la 
variación de esta correlación con la calculada cuando ambas están en el mismo 
instante t es positiva y va creciendo al aumentar el movimiento hacia atrás (ver 
Figura 31). Esto significa que al retrasar el valor IBEX respecto 233 y 70 va creciendo 
el valor de la correlación progresivamente. Entonces, la correlación entre IBEX en 
t+n y cualquiera de los otros dos valores en t será mejor que la de IBEX en t y esos 
valores en t (ver Figura 32). En conclusión, sabiendo que cuanto más retrasado esté 
IBEX mejor será la correlación, podemos usar 233 y 70 para predecir el 
comportamiento futuro de IBEX. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
37 
Isabel Vegas Villalmanzo 
 
Figura 32: Esquema del movimiento lag de IBEX hacia atrás respecto de los valores 233 y 70. Fuente: elaboración 
propia. 
 
Empleando la misma argumentación, cuando movemos la serie temporal de precio 
del IBEX hacia delante en el tiempo y calculamos las correlaciones con el valor 285, 
la variación de esta correlación con la calculada cuando ambas están en el mismo 
instante t es positiva y va creciendo al aumentar el movimiento hacia delante (ver 
Figura 31). Esto significa que al adelantar el valor IBEX respecto de 285 va creciendo 
el valor de la correlación progresivamente. La correlación entre IBEX en t-n y 285 en 
t será mejor que la de ambos en t (ver Figura 33). Entonces, cuanto más adelantado 
esté IBEX mejor será la correlación, por lo que podremos usarlo como predictor del 
comportamiento futuro del valor 285. 
 
 
Figura 33: Esquema del movimiento lag de IBEX hacia delante respecto del valor 285. Fuente: elaboración propia. 
 
El mismo razonamiento empleado para describir estas gráficas y tablas, se empleará 
en las sucesivas de este experimento, y de los 4 siguientes. 
 
Hay que recordar que no hemos calculadoeste último tipo de gráfica para lag del 
valor 140, debido a que la correlación con los demás inicialmente fue NA. Este mismo 
criterio se ha empleado en el resto de los experimentos que presenten un caso 
similar con alguno de sus valores. 
 
 
6. Resultados y discusión 
38 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 34: Variación de la correlación respecto la inicial entre los distintos valores y el 70 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 1. Fuente: elaboración propia.
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 35: Variación de la correlación respecto la inicial entre los distintos valores y el 107 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 1. Fuente: elaboración propia. 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
39 
Isabel Vegas Villalmanzo 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 36: Variación de la correlación respecto la inicial entre los distintos valores y el 160 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 1. Fuente: elaboración propia. 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
 
 
Figura 37: Variación de la correlación respecto la inicial entre los distintos valores y el 233 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 1. Fuente: elaboración propia. 
 
6. Resultados y discusión 
40 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 38: Variación de la correlación respecto la inicial entre los distintos valores y el 285 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 1. Fuente: elaboración propia.
Experimento aleatorio 2 
En el segundo experimento se toma una muestra de datos del día 12/03/2014 de 
11:39:05 a 17:25:00. 
 
V
ar
ia
ci
ó
n
 d
el
 p
re
ci
o
 
 
 Tiempo 
Figura 39: Gráfica variación del precio- tiempo para el experimento 2. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
41 
Isabel Vegas Villalmanzo 
 
Figura 40: Coeficientes de correlación entre valores del experimento 2. Fuente: elaboración propia. 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 41: Variación de la correlación respecto la inicial entre los distintos valores y el IBEX al moverlo hacia delante 
o hacia atrás (lag), en el experimento 2. Fuente: elaboración propia.
Los cambios abruptos en la variación porcentual de la correlación de 160 respecto 
de IBEX se deben a que, como muestra la tabla anterior de correlaciones, el valor de 
Cálculo de correlaciones
Pearson's product-moment correlation
data t p-value 95 percent confidence interval sample estimates: cor
PriceIBEX_04 and Price70_04 -27.716 < 2.2e-16 (-0.2020062, -0.1757682) -0.1889209
PriceIBEX_04 and Price107_04 643.41 < 2.2e-16 (0.9751803, 0.9764794) 0.9758385
PriceIBEX_04 and Price140_04 99.387 < 2.2e-16 (0.5585745, 0.5770105) 0.5678637
PriceIBEX_04 and Price160_04 1.8025 0.07148 (-0.001093612, 0.026111021) 0.07148
PriceIBEX_04 and Price233_04 117.75 < 2.2e-16 (0.6246157, 0.6409290) 0.6328426
PriceIBEX_04 and Price285_04 NA NA NA NA
Price70_04 and Price107_04 -29.73 < 2.2e-16 ( -0.2151239, -0.1890262) -0.2021109
Price70_04 and Price140_04 71.473 < 2.2e-16 ( 0.4334492, 0.4552845) 0.4444329
Price70_04 and Price160_04 129.33 < 2.2e-16 (0.6604382, 0.6755056) 0.6680404
Price70_04 and Price233_04 57.98 < 2.2e-16 (0.3615945, 0.3850111) 0.3733623
Price70_04 and Price285_04 NA NA NA NA
Price107_04 and Price140_04 104.4 < 2.2e-16 (0.5778134, 0.5956543) 0.586805
Price107_04 and Price160_04 4.8721 1.112E-06 ( 0.02020506, 0.04738288) 0.03380022
Price107_04 and Price233_04 127.31 < 2.2e-16 (0.6544730, 0.6697525) 0.6621816
Price107_04 and Price285_04 NA NA NA NA
Price140_04 and Price160_04 100.09 < 2.2e-16 ( 0.5613344, 0.5796862 0.5705816
Price140_04 and Price233_04 164.56 < 2.2e-16 (0.7464475, 0.7582540) 0.7524112
Price140_04 and Price285_04 NA NA NA NA
Price160_04 and Price233_04 94.983 < 2.2e-16 (0.5408922, 0.5598581) 0.5504461
Price160_04 and Price285_04 NA NA NA NA
Price233_04 and Price285_04 NA NA NA NA
6. Resultados y discusión 
42 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
la correlación es muy pequeño (0,07148). Entonces, cualquier pequeña variación en 
la correlación se hace porcentualmente enorme. 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 42: Variación de la correlación respecto la inicial entre los distintos valores y el 70 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 2. Fuente: elaboración propia
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 43: Variación de la correlación respecto la inicial entre los distintos valores y el 107 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 2. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
43 
Isabel Vegas Villalmanzo 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 44: Variación de la correlación respecto la inicial entre los distintos valores y el 140 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 2. Fuente: elaboración propia.
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 45: Variación de la correlación respecto la inicial entre los distintos valores y el 160 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 2. Fuente: elaboración propia. 
 
 
 
 
6. Resultados y discusión 
44 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
Figura 46: Variación de la correlación respecto la inicial entre los distintos valores y el 233 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 2. Fuente: elaboración propia.
 
 
Experimento aleatorio 3 
En el tercer experimento se toma una muestra de datos del día 20/03/2014 de 
11:39:05 a 17:25:00. 
 
V
ar
ia
ci
ó
n
 d
el
 p
re
ci
o
 
 
 Tiempo 
Figura 47: Gráfica variación del precio- tiempo para el experimento 3. Fuente: elaboración propia. 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
45 
Isabel Vegas Villalmanzo 
 
Figura 48: Coeficientes de correlación entre valores del experimento 3. Fuente: elaboración propia. 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 49: Variación de la correlación respecto la inicial entre los distintos valores y el IBEX al moverlo hacia delante 
o hacia atrás (lag), en el experimento 3. Fuente: elaboración propia. 
 
 
Cálculo de correlaciones
Pearson's product-moment correlation
data t p-value 95 percent confidence interval sample estimates: cor
PriceIBEX_20 and Price70_20 56.681 < 2.2e-16 (0.3542787, 0.3778404) 0.3661182
PriceIBEX_20 and Price107_20 755.25 < 2.2e-16 (0.9818046, 0.9827600) 0.9822887
PriceIBEX_20 and Price140_20 123.89 < 2.2e-16 (0.6441356, 0.6597778) 0.6520261
PriceIBEX_20 and Price160_20 162.89 < 2.2e-16 (0.7430211, 0.7549645) 0.7490537
PriceIBEX_20 and Price233_20 206.04 < 2.2e-16 (0.8150164, 0.8239517) 0.8195339
PriceIBEX_20 and Price285_20 -42.678 < 2.2e-16 ( -0.2964959, -0.2714823) -0.2840374
Price70_20 and Price107_20 65.906 < 2.2e-16 (0.4046924, 0.4271926) 0.4160062
Price70_20 and Price140_20 115.42 < 2.2e-16 (0.6168974, 0.6334700) 0.6252542
Price70_20 and Price160_20 116.03 < 2.2e-16 (0.6189323, 0.6354367) 0.627255
Price70_20 and Price233_20 85.961 < 2.2e-16 (0.5022954, 0.5223610) 0.5123981
Price70_20 and Price285_20 -16.171 < 2.2e-16 ( -0.12496307, -0.09809333) -0.1115486
Price107_20 and Price140_20 143.27 < 2.2e-16 (0.6982443, 0.7119249) 0.7051502Price107_20 and Price160_20 195.82 < 2.2e-16 (0.8006622, 0.8102184) 0.8054926
Price107_20 and Price233_20 241.24 < 2.2e-16 (0.8549399, 0.8620933) 0.8585584
Price107_20 and Price285_20 -48.44 < 2.2e-16 (-0.3308706, -0.3064254) -0.318701
Price140_20 and Price160_20 502.54 < 2.2e-16 (0.9602327, 0.9622993) 0.9612796
Price140_20 and Price233_20 148.06 < 2.2e-16 (0.7100364, 0.7232694) 0.7167174
Price140_20 and Price285_20 -24.438 < 2.2e-16 (-0.1804380, -0.1539906) -0.1672444
Price160_20 and Price233_20 197.73 < 2.2e-16 (0.8034548, 0.8128910) 0.8082248
Price160_20 and Price285_20 -26.041 < 2.2e-16 ( -0.1910192, -0.1646717) -0.1778774
Price233_20 and Price285_20 -36.097 < 2.2e-16 (-0.2558058, -0.2302046) -0.2430475
6. Resultados y discusión 
46 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 50: Variación de la correlación respecto la inicial entre los distintos valores y el 70 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 3. Fuente: elaboración propia. 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 51: Variación de la correlación respecto la inicial entre los distintos valores y el 107 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 3. Fuente: elaboración propia. 
 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
47 
Isabel Vegas Villalmanzo 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 52: Variación de la correlación respecto la inicial entre los distintos valores y el 140 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 3. Fuente: elaboración propia. 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 53: Variación de la correlación respecto la inicial entre los distintos valores y el 160 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 3. Fuente: elaboración propia. 
 
 
6. Resultados y discusión 
48 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 54: Variación de la correlación respecto la inicial entre los distintos valores y el 233 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 3. Fuente: elaboración propia. 
 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 55: Variación de la correlación respecto la inicial entre los distintos valores y el 285 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 3. Fuente: elaboración propia.
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
49 
Isabel Vegas Villalmanzo 
Experimento aleatorio 4 
En el cuarto experimento se toma una muestra de datos del día 28/03/2014 de 
11:39:05 a 17:25:00. 
V
ar
ia
ci
ó
n
 d
el
 p
re
ci
o
 
 
 Tiempo 
Figura 56: Gráfica variación del precio- tiempo para el experimento 4. Fuente: elaboración propia 
Como en el día anterior, 27 de marzo, no hay ninguna operación del valor 285 se 
coge la media del día 26 para calcular la variación del precio. 
 
Figura 57: Coeficientes de correlación entre valores del experimento 4. Fuente: elaboración propia. 
Cálculo de correlaciones
Pearson's product-moment correlation
data t p-value 95 percent confidence interval sample estimates: cor
PriceIBEX_28 and Price70_28 8.5146 < 2.2e-16 (0.04543340, 0.07254824) 0.0590017
PriceIBEX_28 and Price107_28 269.11 < 2.2e-16 (0.8785621, 0.8846234) 0.8816291
PriceIBEX_28 and Price140_28 47.373 < 2.2e-16 (0.3000571, 0.3246118) 0.3123866
PriceIBEX_28 and Price160_28 -12.258 < 2.2e-16 (-0.09827343, -0.07125943) -0.08478201
PriceIBEX_28 and Price233_28 99.326 < 2.2e-16 (0.5583441, 0.5767875) 0.567637
PriceIBEX_28 and Price285_28 -46.135 < 2.2e-16 ( -0.3172795, -0.2926005) -0.3049912
Price70_28 and Price107_28 -14.768 < 2.2e-16 (-0.1154244, -0.0884978) -0.1019798
Price70_28 and Price140_28 -25.658 < 2.2e-16 (-0.1885029, -0.1621299) -0.1753479
Price70_28 and Price160_28 -25.977 < 2.2e-16 ( -0.1906077, -0.1642549) -0.1774631
Price70_28 and Price233_28 22.506 < 2.2e-16 (0.1410496, 0.1676110) 0.1543582
Price70_28 and Price285_28 1.881 0.05999 (-0.0005491116, 0.0266557983) 0.01305576
Price107_28 and Price140_28 94.562 < 2.2e-16 (0.5391697, 0.5581868) 0.5487492
Price107_28 and Price160_28 4.311 0.00001633 (0.01631375, 0.04349896) 0.02991189
Price107_28 and Price233_28 47.953 < 2.2e-16 (0.3035332, 0.3280290) 0.3158337
Price107_28 and Price285_28 -44.846 < 2.2e-16 (-0.3095856, -0.2847796) -0.2972328
Price140_28 and Price160_28 24.834 < 2.2e-16 (0.1566420, 0.1830664) 0.1698847
Price140_28 and Price233_28 -15.573 < 2.2e-16 (-0.12090163, -0.09400631) -0.1074736
Price140_28 and Price285_28 -25.932 < 2.2e-16 (-0.1903100, -0.1639543) -0.1771639
Price160_28 and Price233_28 0.73878 0.46 (-0.00847711, 0.01873172) 0.005128255
Price160_28 and Price285_28 -35.854 < 2.2e-16 (-0.2542849, -0.2286622) -0.2415157
Price233_28 and Price285_28 -93.807 < 2.2e-16 (-0.5551619, -0.5360533) -0.5456785
6. Resultados y discusión 
50 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 58: Variación de la correlación respecto la inicial entre los distintos valores y el IBEX al moverlo hacia delante 
o hacia atrás (lag), en el experimento 4. Fuente: elaboración propia. 
 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 59: Variación de la correlación respecto la inicial entre los distintos valores y el 70 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 4. Fuente: elaboración propia. 
 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
51 
Isabel Vegas Villalmanzo 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 60: Variación de la correlación respecto la inicial entre los distintos valores y el 107 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 4. Fuente: elaboración propia. 
 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 61: Variación de la correlación respecto la inicial entre los distintos valores y el 140 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 4. Fuente: elaboración propia. 
 
 
6. Resultados y discusión 
52 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 62: Variación de la correlación respecto la inicial entre los distintos valores y el 160 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 4. Fuente: elaboración propia. 
 
 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 63: Variación de la correlación respecto la inicial entre los distintos valores y el 233 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 4. Fuente: elaboración propia. 
 
 
Predicción de valores de bolsa mediante minería de datos para mercado de alta frecuencia 
53 
Isabel Vegas Villalmanzo 
V
ar
ia
ci
ó
n
 d
e 
la
 c
o
rr
el
ac
ió
n
 
 
 Lag 
 
Figura 64: Variación de la correlación respecto la inicial entre los distintos valores y el 285 al moverlo hacia delante o 
hacia atrás (lag), en el experimento 4. Fuente: elaboración propia.
 
Experimento aleatorio 5 
En el último experimento se toma una muestra de datos del día 31/03/2014 de 11:40:07 
a 17:25:00. 
 
V
ar
ia
ci
ó
n
 d
el
 p
re
ci
o
 
 
 Tiempo 
 
Figura 65: Gráfica variación del precio- tiempo para el experimento 5. Fuente: elaboración propia 
6. Resultados y discusión 
54 
Escuela Técnica Superior de Ingenieros Industriales (UPM) 
Como en el día anterior, 30 de marzo, el mercado bursátil está cerrado por ser fin de 
semana, se coge la media del primer día de mercado abierto anterior (el viernes 28) para 
calcular la variación del precio de los

Continuar navegando

Contenido elegido para ti