Logo Studenta

TFM_ERNESTO_ESCRIBA_PINA

¡Este material tiene más páginas!

Vista previa del material en texto

Escuela Técnica Superior de Ingenieros
Informáticos
Universidad Politécnica de Madrid
Aprendizaje por Refuerzo
mediante Deep Learning para las
Ciudades Inteligentes
Trabajo Fin de Máster
Máster Universitario en Inteligencia Artificial
AUTOR: Ernesto Escribá Pina
TUTORES: Emilio Serrano y
Javier Bajo
2021
i
AGRADECIMIENTOS
Me gustaŕıa expresar mi agradecimiento a todas aquellas personas que me han
apoyado y ayudado durante la realización de este Trabajo de Fin de Máster. Espe-
cialmente a mi tutor Emilio, que siempre ha valorado mi esfuerzo y me ha guiado.
Pese a no poder mostrar toda la constancia que me habŕıa gustado y tener que
posponer durante un peŕıodo de tiempo los plazos ideados inicialmente, ha seguido
confiando en mi trabajo para conseguir presentar una buena tesis. También agra-
decer a familia, compañeros y amigos, que son los primeros que me han aguantado
y animado durante esta estapa, especialmente en los momentos de mayor agobio y
carga de trabajo, tanto a nivel personal como profesional. Gracias por todo.
ii
RESUMEN
Las ciudades inteligentes surgen como un medio con el que crear grandes opor-
tunidades de desarrollo para sus habitantes, gestionando las áreas urbanas de forma
más eficiente y sostenible, logrando mejoras en el aspecto económico, social y am-
biental y en la calidad de vida de los ciudadanos. Actualmente, el gran desarrollo de
la Inteligencia Artificial (IA) y el Internet de las cosas (IoT) se debe principalmen-
te a tres aspectos: el aumento de la cantidad de datos (Big Data), la aparición de
algoritmos avanzados de IA y el aumento de la potencia de computación. En este
contexto encontramos el Deep Learning (DL), el aprendizaje por refuerzo (RL) y
su combinación (DRL), que han obtenido un gran éxito en distintos dominios de
aplicación en los últimos años, con un interés creciente.
Los objetivos de la tesis son: 1) el estudio detallado del estado del arte, definien-
do el contexto con los conceptos de DL, RL y smart city y realizando una revisión
sistemática de los trabajos relacionados; 2) la exploración de oportunidades y pro-
puesta de aplicaciones novedosas no abordadas previamente con el uso de DRL,
describiendo el rol que puede desempeñar en el futuro; y 3) el desarrollo de un caso
de estudio sobre aplicaciones de movilidad urbana, con resultados experimentales en
simulaciones para apoyar la hipótesis de que su uso es útil y viable.
La contribución de este TFM es la revisión sistemática completa para todos los
dominios de las ciudades inteligentes con el uso de DRL; la propuesta y descripción
de diversas aplicaciones de DRL con potencial en distintos componentes de las ciu-
dades inteligentes (más amplia y desarrollada que cualquier propuesta vista en la
literatura); y la aplicación y validación de un mismo algoritmo de DRL para casos
de usos distintos, además del desarrollo de un entorno de simulación en el que se
pueden probar los experimentos realizados y ampliarlos.
El caso de estudio implica el desarrollo de dos aplicaciones de DRL en entornos de
movilidad urbana. Para cada uno se implementa y entrena un agente con el algoritmo
Proximal Policy Optimization (PPO). El primer entorno (SmartCab) consiste en
un veh́ıculo autónomo cuya función es la de recoger y dejar pasajeros. Sirve como
prueba de concepto, ya que sus resultados no son directamente aplicables. El segundo
entorno (WasteNet), tiene como objetivo la optimización de la recogida de residuos
urbanos para una red de contenedores. Los resultados son muy interesantes, ya que
muestran una reducción notable de la ruta frente a las alternativas básicas, y en un
entorno escalable.
iii
SUMMARY
Smart cities emerge as a means to create great development opportunities for
their inhabitants, managing urban areas in a more efficient and sustainable way,
achieving improvements in the economic, social and environmental aspects and in
the quality of life of citizens. Currently, the great development of Artificial Intelligen-
ce (AI) and the Internet of Things (IoT) is mainly due to three aspects: the increase
in the amount of data (Big Data), the emergence of advanced AI algorithms and
the increased computing power. In this context, we find Deep Learning (DL), Rein-
forcement Learning (RL) and their combination (DRL), which have obtained great
success in different application domains in recent years, with a growing interest.
The aims of the thesis are: 1) a detailed study of the State of the Art, defining
the context with the concepts of DL, RL and smart city and performing a systema-
tic review of related work; 2) the exploration of opportunities and proposal of novel
applications not previously addressed with the use of DRL, describing the role it can
play in the future; and 3) the development of a case study on urban mobility appli-
cations, with experimental results in simulations in order to support the hypothesis
that this approach is useful and feasible.
The contribution of this TFM is the complete systematic review for all domains
of smart cities with the use of DRL; the proposal and description of several DRL
applications with potential in different components of smart cities (more extensive
and developed than any proposal seen in the literature); and the application and
validation of the same DRL algorithm for different case studies, in addition to the
development of a simulation environment in which the experiments performed can
be tested and extended.
The case study involves the development of two DRL applications for urban
mobility environments. For each one, an agent is implemented and trained with
Proximal Policy Optimization (PPO) algorithm. The first environment (SmartCab)
consists of an autonomous vehicle (AV) whose purpose is to pick up and drop off
passengers. It serves as a proof of concept, as its results are not directly applicable.
The second environment (WasteNet) aims at optimizing urban waste collection for
a network of dumpsters. The results are very interesting, as they show a remar-
kable reduction of the route compared to the basic alternatives, and in a scalable
environment.
iv
Índice
1. INTRODUCCIÓN Y OBJETIVOS . . . . . . . . . . . . . . . . . . . 1
1.1. Introducción y motivación . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Objetivos y aportación . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. CONTEXTO Y ANTECENDENTES . . . . . . . . . . . . . . . . . . 4
2.1. Smart cities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Aprendizaje por refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3. Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4. Aprendizaje por refuerzo con Deep Learning . . . . . . . . . . . . . . 7
3. TRABAJOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . 9
4. APLICACIONES Y OPORTUNIDADES . . . . . . . . . . . . . . . . 18
4.1. Movilidad y medio ambiente . . . . . . . . . . . . . . . . . . . . . . . 19
4.2. Economı́a y gobierno . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3. Salud y estilo de vida . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5. CASO DE ESTUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2. Metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.1. Gradiente de poĺıticas . . . . . . . . . . . . . . . . . . . . . . 29
5.2.2. Región de confianza . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.3. PPO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2.4. PBT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2.5. Hiperparámetros . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3. Entorno SmartCab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3.2. Entrenamiento . . . . . . . . . . .. . . . . . . . . . . . . . . 34
5.3.3. Experimentos y resultados . . . . . . . . . . . . . . . . . . . . 35
5.4. Entorno WasteNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.4.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.4.2. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4.3. Experimentos y resultados . . . . . . . . . . . . . . . . . . . . 40
6. CONCLUSIONES Y TRABAJOS FUTUROS . . . . . . . . . . . . . 42
v
Índice de figuras
1. Resumen gráfico de la tesis . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Los seis indicadores de ciudad inteligente [3] . . . . . . . . . . . . . . 4
3. Categoŕıas de aprendizaje automático [9] . . . . . . . . . . . . . . . . 5
4. Interacción agente-entorno en un MDP [48] . . . . . . . . . . . . . . . 6
5. DNN feedforward [50] . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6. Esquema básico de un sistema DRL [31] . . . . . . . . . . . . . . . . 7
7. DNN utilizada en la arquitectura de la DQN de DeepMind [34] . . . . 8
8. Sistema de control térmico de un edificio mediante DRL [13] . . . . . 12
9. Entorno de simulación integrando CitySim y TensorFlow [52] . . . . . 12
10. Escenario para UAVs y estaciones de carga móviles [55] . . . . . . . . 13
11. Escenario de control de tráfico en una intersección mediante DRL [25] 15
12. Framework de DRL multi-agente para el control dinámico de auto-
buses [53] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
13. Modelo de seguimiento de coches con ataque cibernético [12] . . . . . 16
14. Aplicaciones y oportunidades de DRL para ciudades inteligentes . . . 19
15. Herramientas de Python utilizadas para el desarrollo del caso práctico 27
16. Ventajas positivas y negativas en la función objetivo de PPO-Clip [43] 30
17. Optimización de hiperparámetros con PBT en comparación con otros
métodos tradicionales [18] . . . . . . . . . . . . . . . . . . . . . . . . 31
18. Esquema de DRL aplicado al entorno de SmartCab . . . . . . . . . . 34
19. Progresión de la recompensa media de 6 muestras de entrenamiento
de PPO en el entorno SmartCab para el ajuste de hiperparámetros
mediante PBT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
20. Evolución de la recompensa mı́nima, media y máxima de los episodios
a lo largo de las iteraciones del entrenamiento en el entorno SmartCab 35
21. Ejemplo de simulación del entorno SmartCab paso a paso . . . . . . . 36
22. Esquema de DRL aplicado al entorno de WasteNet . . . . . . . . . . 38
23. Progresión de la recompensa media de 8 muestras de entrenamiento
de PPO en el entorno WasteNet para el ajuste de hiperparámetros
mediante PBT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
24. Evolución de la recompensa mı́nima, media y máxima de los episodios
a lo largo de las iteraciones del entrenamiento en el entorno WasteNet 39
25. Ejemplo de simulación del entorno WasteNet paso a paso . . . . . . . 40
vi
Índice de tablas
1. Trabajos potenciales y seleccionados de las distintas fuentes . . . . . 9
2. Preguntas de investigación para los art́ıculos seleccionados . . . . . . 10
3. Aplicaciones para ciudades inteligentes de los trabajos relacionados . 10
4. Aplicaciones y oportunidades propuestas de movilidad y medio am-
biente en ciudades inteligentes . . . . . . . . . . . . . . . . . . . . . . 21
5. Aplicaciones y oportunidades propuestas de economı́a y gobierno en
ciudades inteligentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6. Aplicaciones y oportunidades propuestas de salud y estilo de vida en
ciudades inteligentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7. Descripción de hiperparámetros para ajuste del algoritmo PPO . . . . 32
8. Configuración de hiperparámetros para ajuste del algoritmo PPO . . 32
9. Resultados medios por ruta del entorno WasteNet para distintos tipos
de agente durante 1000 episodios. . . . . . . . . . . . . . . . . . . . . 41
vii
Glosario de abreviaturas
A3C Algoritmo aśıncrono de DQN (Asynchronous Advantage Actor-Critic)
ABM Modelado basado en agentes (Agent-Based Modeling)
ANN Red neuronal artificial (Artificial Neural Network)
ARCADES Adaptive Reinforced Context-Aware Deep Decision System
ATSC Control adaptativo de la señal de tráfico (Adaptive Traffic Signal Control)
AV Veh́ıculo autónomo (Autonomous Vehicle)
BLE Bluetooth de baja enerǵıa (Bluetooh Low Energy)
CDQN Deep Q-Network cont́ınua (Continuous DQN)
CNN Red neuronal convolucional (Convolucional Neural Network)
DDPG Algoritmo de Q-learning (Deep Deterministic Policy Gradient)
DL Aprendizaje profundo (Deep Learning)
DNN Red neuronal profunda (Deep Neural Network)
DQN Red profunda de Q-Learning (Deep Q-Network)
DRL Aprendizaje por refuerzo con Deep Learning (Deep Reinforcement Learning)
FNN Red neuronal feedforward (Feedforward Neural Network)
HVAC Climatización (Heating Ventilating and Air Conditioning)
IA Inteligencia Artificial
IoT Internet de las cosas (Internet of Things)
KL Divergencia de Kullback-Leibler
MDP Proceso de decisión de Markov (Markov Decision Process)
ML Aprendizaje automático (Machine Learning)
PBT Entrenamiento basado en la población (Population Based Training)
PPO Método de RL basado en poĺıticas (Proximal Policy Optimization)
RL Aprendizaje por refuerzo (Reinforcement Learning)
RNN Red neuronal recurrente (Recurrent Neural Network)
viii
SARSA Algoritmo de aprendizaje de poĺıticas para un MDP
(State–Action–Reward–State–Action)
SGD Descenso de gradiente estocástico (Stochastic Gradient Descent)
SPHA Asesor de salud personal inteligente (Smart Personal Health Advisor)
SUMO Simulador de movilidad urbana (Simulation of Urban MObility)
TIC Tecnoloǵıas de la información y la comunicación
TRPO Método de RL basado en poĺıticas (Trust Region Policy Optimization)
TSP Problema del viajante (Travelling Salesman Problem)
UAV Veh́ıculo aéreo no tripulado (Unmanned Aerial Vehicle)
VAE Codificador automático variacional (Variational Autoencoder)
1 INTRODUCCIÓN Y OBJETIVOS 1
1. INTRODUCCIÓN Y OBJETIVOS
1.1. Introducción y motivación
Las ciudades son los principales focos de actividad humana y económica. Tienen
el potencial para crear grandes oportunidades de desarrollo para sus habitantes,
aunque también generan una serie de problemas que pueden ser dif́ıciles de abordar
a medida que crecen en tamaño y complejidad. Con la innovación y el desarrollo de
las TIC, el concepto de smart city surge como un medio para lograr ciudades más
eficientes y sostenibles. Esto implica una mejora en el aspecto económico, social y
ambiental, y por tanto, en la calidad de vida de sus ciudadanos.
En los últimos años, la Inteligencia Artificial (IA) ha entrado en una nueva era
de desarrollo debido principalmente a los cambios o avances en tres aspectos: el
aumento de la cantidad de datos (Big Data), la aparición de algoritmos avanzados
de IA y el aumento capacidad de computación y la potencia del hardware. En este
contexto encontramos el Deep Learning [14] (DL) y el aprendizaje por refuerzo [48]
(RL), que se han utilizado en ćırculos académicos durante muchos años, pero que
han llegado recientemente al mundo industrial para la investigación orientada a la
aplicación. Su combinación [23] (DRL) también ha obtenido un gran éxito en varios
dominios de aplicación en los últimos años, con un interés creciente.
Los servicios inteligentes son un elemento importante de los ecosistemas de las
ciudades inteligentes y de la Internet de las cosas (IoT), donde la inteligencia que
hay detrás los servicios se obtiene y mejora a través de los datos sensoriales, gracias
a los avances en aplicaciones de usuario, infraestructuras, redes y dispositivos. Pro-
porcionar una gran cantidad de datos de entrenamiento no siempre es factible, por
lo que también debemos considerar formas alternativas que incorporen y aprovechen
los datos sin etiquetar. La alternativapropuesta es el DRL, capaz de aprender en un
entorno concreto sin necesidad de datos etiquetados mediante el RL, y de afrontar
problemas de alta complejidad y grandes volúmenes de datos, gracias al uso del DL.
La movilidad urbana es una de las preocupaciones más importantes que se deben
tener en cuenta en el área de investigación de las ciudades inteligentes. A medida
que aumenta la población y la propiedad de veh́ıculos, las ciudades sufren el gran
volumen de tráfico que supera su capacidad, lo que aumenta la congestión del tráfi-
co, las emisiones de los veh́ıculos y el retraso en los viajes en entornos de tráfico
urbano. En este contexto, es necesario desarrollar soluciones inteligentes y económi-
cas para mejorar la calidad de la movilidad para los usuarios de la carretera, tanto
particulares como de servicios públicos y privados. La movilidad compartida, los
veh́ıculos autónomos, la optimización de rutas y estrategias de transporte, el IoT y
el análisis avanzado de datos permiten que las personas, servicios y bienes se muevan
más rápido, más seguros y de forma más barata, limpia y eficiente.
1 INTRODUCCIÓN Y OBJETIVOS 2
1.2. Objetivos y aportación
El objetivo principal de este TFM es el estudio de aplicaciones de DRL en ciu-
dades inteligentes. De este objetivo principal se derivan los siguientes subobjetivos,
que coinciden con los tres pilares fundamentales de la tesis:
Estudio detallado del estado del arte, definiendo y poniendo en contexto los
conceptos de DL, RL y smart city (Sección 2) y realizando una revisión sis-
temática de los trabajos de la literatura especializada que combinan dichos
conceptos y sus aplicaciones (Sección 3).
Exploración de oportunidades y propuesta de aplicaciones novedosas que no se
hayan tratado previamente con el uso de DRL, describiendo el rol que puede
desempeñar en el futuro de las ciudades inteligentes (Sección 4).
Desarrollo de un caso de estudio sobre aplicaciones de movilidad urbana, apli-
cando alguna técnica de DRL al problema en entornos simulados y obteniendo
resultados experimentales para apoyar la hipótesis de que su uso es útil y viable
(Sección 5).
De dichos objetivos principales se extrae la contribución de este TFM:
La revisión sistemática completa y genérica para todos los dominios de las
ciudades inteligentes con el uso de DRL. En la literatura encontramos estado
del arte concretos para los dominios de los casos de estudio que desarrollan.
La propuesta de potenciales aplicaciones de DRL para todos los dominios
de ciudades inteligentes. En la literatura no encontramos dicha exploración de
oportunidades y las propuestas de aplicaciones no son amplias ni desarrolladas.
La aplicación de un mismo algoritmo de DRL para distintos casos de uso con
la misma configuración de ajuste de hiperparámetros, además del desarrollo
de un entorno de simulaciones en el que se pueden reproducir los experimentos
realizados y ampliarlos. El código fuente libre y abierto está disponible para
el investigador interesado en un repositorio público [11].
En la Fig. 1 se muestra un mapa de contenidos a modo de sumario.
1 INTRODUCCIÓN Y OBJETIVOS 3
Fig. 1: Resumen gráfico de la tesis
2 CONTEXTO Y ANTECENDENTES 4
2. CONTEXTO Y ANTECENDENTES
En esta sección se presentan los conceptos de ciudad inteligente, RL, DL y DRL,
definiéndolos, proporcionando antecedentes y mostrando su utilidad.
2.1. Smart cities
Las ciudades inteligentes son zonas urbanas que utilizan diversos datos para
mejorar la calidad de vida de los ciudadanos en diferentes áreas, servicios e in-
fraestructuras de la ciudad. Los datos son recolectados de distintas fuentes como
smartphones, ordenadores, sensores ambientales, cámaras, GPS y de los propios
ciudadanos. Estos datos son procesados y analizados para monitorizar y gestionar
los recursos de la ciudad de manera inteligente, eficiente y sostenible.
El concepto de smart city es amplio y no está totalmente definido, combinando
diversos aspectos de la vida y componentes de la ciudad. En la literatura encontra-
mos diferentes conceptos en los que se pueden enmarcar las ciudades inteligentes
según sus aplicaciones, servicios y necesidades. Se pueden clasificar en seis campos o
dimensiones principales (Fig. 2), que representan los aspectos espećıficos de una ciu-
dad en los que las iniciativas inteligentes generan impacto para lograr los objetivos
esperados de una estrategia de ciudad inteligente [38]:
Smart Governance. Gobernabilidad flexible, transparente y eficiente.
Smart Economy. Economı́a local e infraestructuras.
Smart Mobility. Gestión del tráfico y transporte público.
Smart Environment. Sostenibilidad, enerǵıa y contaminación.
Smart People. Cohesión social, educación y cultura.
Smart Living. Viviendas, salud y seguridad.
Fig. 2: Los seis indicadores de ciudad inteligente [3]
2 CONTEXTO Y ANTECENDENTES 5
2.2. Aprendizaje por refuerzo
El RL es una de las tres categoŕıas en las que se divide el aprendizaje automáti-
co (ML), separada del aprendizaje supervisado y el no supervisado (Fig. 3). El RL
permite que agentes aprendan automáticamente qué acciones tomar para maximi-
zar una recompensa, dada una determinada situación o entorno. No se considera
aprendizaje supervisado porque no se basa estrictamente en un conjunto de datos
etiquetados. Y tampoco es no supervisado, ya que tiene un objetivo distinto (el no
supervisado busca aprender una estructura de datos, no una secuencia de acciones).
Fig. 3: Categoŕıas de aprendizaje automático [9]
El RL se suele modelar como un proceso de decisión de Markov (MDP), en el
que un agente interactúa con un entorno (Fig. 4):
La recompensa R es una señal de retroalimentación que indica cómo de bien
está actuando el agente en un momento dado.
El estado S es una descripción del entorno en el que se encuentra el agente.
La acción A que realiza un agente en cada paso es una función de R y S.
La poĺıtica P es la asignación de los estados del entorno a las acciones. Define
la manera de comportarse del agente en un momento determinado, dada una
situación determinada.
La función de valor V mide cómo de buena es cada posición a largo plazo.
El modelo M es la representación del agente del entorno, es decir, cómo cree
el agente que se va a comportar el entorno.
2 CONTEXTO Y ANTECENDENTES 6
Fig. 4: Interacción agente-entorno en un MDP [48]
EL RL se usa a menudo en robótica, juegos y navegación. Un algoritmo RL t́ıpico
funciona con un conocimiento limitado del entorno y con una retroalimentación
limitada sobre la calidad de las decisiones. Muchos de los problemas del mundo real
pueden tener una enorme complejidad en distintos aspectos, por lo que en estos
casos el RL básico es insuficiente y es necesaria la introducción de técnicas de DL.
2.3. Deep Learning
El DL es un subcampo del aprendizaje automático que utiliza modelos compues-
tos por capas de procesamiento múltiples, que pueden aprender representaciones de
grandes conjuntos de datos con múltiples niveles de abstracción. Está basado en el
uso de redes neuronales artificiales (ANNs).
Una ANN es un modelo computacional no lineal basado en la estructura neuronal
del cerebro que puede aprender a realizar tareas como clasificación, predicción, toma
de decisiones y visualización. Consta de neuronas artificiales y está organizada en
tres capas interconectadas: entrada, oculta y salida. Cada neurona tiene entradas
ponderadas (sinapsis), una función de activación (define la salida dada una entrada)
y una salida. Las sinapsis son los parámetros ajustables que convierten una red
neuronal en un sistema parametrizado.
Fig. 5: DNN feedforward [50]
2 CONTEXTO Y ANTECENDENTES 7
El término DL proviene de las redes neuronales con dos o más capas ocultas (Fig.
5), que se denominan redes neuronales profundas (DNNs). Existen dos modelos
t́ıpicos de DNN, la red neuronal feedforward (FNN) y la red neuronal recurrente
(RNN). En la FNN la informaciónse mueve en una sola dirección, siendo el modelo
más conocido la red neuronal convolucional (CNN). La RNN es la variante recursiva
en la que las conexiones entre las neuronas forman ciclos dirigidos.
En los últimos años, el DL ha demostrado su enorme potencial en distintas áreas,
especialmente el reconocimiento de imágenes y del habla [14], y ha sido ampliamente
utilizado como tecnoloǵıa para resolver problemas de RL [23].
2.4. Aprendizaje por refuerzo con Deep Learning
La combinación de DL con RL ha inducido un nuevo campo de investigación,
llamado DRL, que integra la percepción de DL y la toma de decisiones de RL. Por
lo tanto, el DRL puede implementar una variedad de tareas que requieren tanto
análisis de datos en brutos de alta dimensionalidad como el control de poĺıticas. En
la Fig. 6 se muestra la estructura básica de un sistema DRL.
Fig. 6: Esquema básico de un sistema DRL [31]
Uno los primeros intentos exitosos de combinar RL y DNNs fue desarrollado por
Google Deepmind en 2015 [34]. Consist́ıa en un sistema que era capaz jugar a 49
juegos de Atari a un nivel comparable al de jugadores profesionales, utilizando una
Deep Q-Network o DQN (Fig. 7).
Esta investigación fue un gran avance para el posterior desarrollo de AlphaGo
[46], que mostró al DRL como una de las áreas de investigación más prometedoras
de la IA. Se convirtió en el primer programa en derrotar a un jugador humano
profesional en el juego de mesa GO, considerado como uno de los juegos más dif́ıciles
del mundo para la IA debido a la incréıble cantidad de escenarios y movimientos
diferentes.
2 CONTEXTO Y ANTECENDENTES 8
Fig. 7: DNN utilizada en la arquitectura de la DQN de DeepMind [34]
Desde ese momento, el DRL ha resuelto distintas limitaciones del aprendizaje
por refuerzo. Estas limitaciones incluyen la diversidad de dominios de aplicación,
la necesidad de entornos controlados y su mala escalabilidad para espacios de alta
dimensión [35].
El DRL mejora significativamente la velocidad de aprendizaje, especialmente
en los problemas con grandes espacios de estado y de acción como es el caso de
sistemas IoT con miles de dispositivos [29]. Además, distintos problemas en este
tipo de entornos inteligentes pueden ser modelados como juegos. El enfoque necesita
retroalimentación para mejorar el rendimiento del sistema pero no tiene necesidad
de datos etiquetados. Esto puede ayudar a extraer más valor de los datos y a abordar
ciertos desaf́ıos de las ciudades inteligentes, ofreciendo soluciones adaptativas.
El desperdicio de datos es otra motivación importante para el uso del DRL, ya
que en ciudades inteligentes pueden generarse cientos o miles de Gigabytes de datos
por segundo. Se estimó que hasta el 2012 solo se hab́ıan analizado aproximadamente
el 0,5% de los 2,8 Zettabytes (ZB) de datos almacenados y que el 3% de ellos estaban
etiquetados [36]. Esto resalta el desaf́ıo que supone el aprovechamiento de esa gran
cantidad de datos, especialmente de los no etiquetados, de los que el DRL se puede
beneficiar.
3 TRABAJOS RELACIONADOS 9
3. TRABAJOS RELACIONADOS
Las ciudades inteligentes y el DRL son conceptos recientes y que se encuentran
en auge, por lo que los trabajos relacionados más importantes se concentran en los
últimos años.
Se ha realizado una revisión sistemática de los art́ıculos de investigación relacio-
nados con el uso del DRL para las ciudades inteligentes. Para ello se han utilizado
las siguientes palabras clave: deep reinforcement learning + smart city / smart home
/ smart mobility / smart governance / smart living / smart environment / smart
building / intelligent environment / ambient intelligence / urban mobility. En la
Tab. 1 se pueden observar las fuentes utilizadas para realizar dicha búsqueda, el
número de resultados y de trabajos seleccionados.
Fuente Trabajos potenciales Trabajos seleccionados
IEEE Xplore 254 7
ResearchGate 100 5
Springer Link 91 1
Google Scholar 2970 2
Total 3415 15
Tab. 1: Trabajos potenciales y seleccionados de las distintas fuentes
Además, se han establecido una serie de preguntas de investigación para desglosar
las caracteŕısticas de los art́ıculos que se han considerado más relevantes, y discutir
su posible contribución a este trabajo:
Q1: ¿Plantea servicios o aplicaciones de ciudades inteligentes?
Q2: ¿Lanza desaf́ıos u oportunidades futuras?
Q3: ¿Propone un framework o arquitectura?
Q4: ¿Son escalables los métodos/experimentos?
Q5: ¿Trabaja con datos, entornos o simuladores disponibles?
Q6: ¿Proporciona software propio o código fuente de lo propuesto?
Q7: ¿Justifica la necesidad o ventaja del RL respecto a otros métodos?
Los art́ıculos seleccionados se muestran en la Tab. 2, donde se encuentran mar-
cados en caso de satisfacer la pregunta de investigación correspondiente. Además, a
cada publicación se le ha asignado una puntuación o valoración (1-4) calculada en
función de lo que puede aportar a este TFM.
3 TRABAJOS RELACIONADOS 10
Referencia Q1 Q2 Q3 Q4 Q5 Q6 Q7 Puntuación
[5] X X X X ���
[7] X X X X �
[12] X X X ���
[13] X X X X X ���
[25] X X X X X ����
[28] X X X X X ����
[29] X X X ��
[36] X X X X X ����
[37] X X X X X ���
[44] X X X ��
[49] X X X X ��
[52] X X X X X ��
[53] X X X X X ����
[55] X X X X ����
[56] X X X ����
Tab. 2: Preguntas de investigación para los art́ıculos seleccionados
Es interesante conocer las aplicaciones concretas de ciudades inteligentes que
utilizan métodos de DRL, para estudiar en qué tipo de servicios son útiles y en
qué pueden mejorarlos. Además, surgen potenciales aplicaciones que están aún sin
explorar mediante estas técnicas, las cuales se comentarán en la siguiente sección.
En la Tab. 3 se muestra el dominio de las aplicaciones de los trabajos relacionados.
Referencia Entorno Dominio de aplicación
[5] Smart Home Control por voz
[7] Smart Health Asistente de salud personal
[12] Smart Mobility Seguridad en AVs
[13] Smart Building Eficiencia energética
[25] Smart Mobility Control de tráfico
[28] Smart Mobility Control de tráfico
[29] Smart City Redes y comunicación
[36] Smart Environment Administración de recursos
[37] Smart Building Localización en interiores
[44] Smart Health Seguridad en app de salud
[49] Smart Mobility Redes de veh́ıculos
[52] Smart Building Gestión energética
[53] Smart Mobility Control de transporte público
[55] Smart Mobility Ahorro energético en AVs
[56] Smart Grid Redes eléctricas
Tab. 3: Aplicaciones para ciudades inteligentes de los trabajos relacionados
3 TRABAJOS RELACIONADOS 11
El uso del Big Data de la ciudades inteligentes desde la perspectiva de apren-
dizaje automático es un desaf́ıo importante debido a su enorme desarrollo en los
últimos años. Mohammadi y Al-Fuqaha [36] intentan arrojar luz a este desaf́ıo y
proponen un framework escalable (Q3, Q4) que usa DRL. Utilizan un aprendizaje
semi-supervisado, donde una pequeña cantidad de datos de feedback de usuarios
sirve como datos etiquetados. Dichos datos se combinan con los no etiquetados para
converger hacia mejores poĺıticas de control (Q7). La interacción con los ciudada-
nos proporcionando feedback puede aportar un valor añadido en métodos de DRL,
optimizando el sistema de recompensas.
Se describen también casos de uso sobre la administración eficiente de recursos,
que incluye la gestión de agua, enerǵıa y agricultura (Q1). Además, proponen retos
y ĺıneas futuras de investigación para incorporar este tipo de técnicas a los servicios
de ciudades inteligentes (Q2). Es interesante el caso de uso sobre la falta de agua y
el impacto de los medidores de agua inteligentes. Estos sistemas pueden ser capaces
de detectar cuándo el grifo se queda abierto por error, resultando en un 12% de
ahorro de agua en un año en el caso de estudio de una ciudad australiana. Esto se
podŕıa extrapolar a otros casos de uso en los que sea posible utilizar sistemas de
control similares.
Los mismos autores plantean en otro art́ıculo relacionado [37] unasolución al
problema de localización en interiores en el contexto de los smart buildings (Q1),
basada en la fuerza de la señal BLE (Bluetooth Low Energy). Utilizan nuevamen-
te el modelo semi-supervisado propuesto (Q3) y Variational Autoencoders (VAE),
realizando experimentos en un entorno real y obteniendo mejoras en los resultados
comparando con otros modelos (Q7).
Otro reto importante en los edificios inteligentes es el ahorro energético. Gao et
al. [13] hablan del desaf́ıo (Q2) que supone reducir el consumo de la climatización o
HVAC (calefacción, ventilación y aire acondicionado). Esto involucra varios factores
que influyen en el entorno de un edificio, generalmente dif́ıciles de modelar y que
pueden ser diferentes de un caso a otro (Q7). Para resolverlo, proponen un framework
(Q3) basado en DRL que optimiza el confort térmico de los ocupantes del edificio,
como se observa en la Fig. 8. Para evaluar los resultados construyen un simulador
de control térmico usando el software TRNSYS y varios datasets disponibles (Q5).
Una herramienta útil para este dominio puede ser el entorno de simulación in-
tegrado (Q3, Q5) que han desarrollado Vázquez-Canteli et al. [52], para la gestión
de la enerǵıa en ciudades inteligentes. Utilizan la libreŕıa de DL TensorFlow [1],
combinada con un simulador de enerǵıa urbana denominado CitySim [40]. Aplican
DRL en dos casos de estudio de ahorro de enerǵıa y respuesta a la demanda (Q1) y
aseguran que permitirá a los investigadores probar algoritmos de aprendizaje para
diversas aplicaciones en el entorno construido (Q6).
3 TRABAJOS RELACIONADOS 12
Fig. 8: Sistema de control térmico de un edificio mediante DRL [13]
Fig. 9: Entorno de simulación integrando CitySim y TensorFlow [52]
Por otro lado, las llamadas redes eléctricas inteligentes o smart grids son una
tendencia en el desarrollo de los sistemas de enerǵıa. Zhang et al. [56] proporcionan
una visión general del gran potencial del DRL para aplicaciones en dichas redes (Q1,
Q2, Q7). Desde el punto de vista tecnológico, estos métodos se pueden aplicar en
predicción y detección de anomaĺıas, apoyo a la toma de decisiones para el control,
etc. Para las empresas, se puede utilizar por ejemplo en predicción de generación
renovable, detección de defectos o fallas de equipos, seguridad, respuesta a la de-
manda y pronóstico de carga, cubriendo casi todos los campos técnicos de las redes
inteligentes.
3 TRABAJOS RELACIONADOS 13
El ahorro energético es también esencial para la movilidad, y en ese contexto
se desarrolla el art́ıculo de Zhang et al. [55], en el que se propone utilizar DRL
para habilitar el control de veh́ıculos voladores no tripulados (UAV), mediante un
framework llamado DRL-RVC (Q1, Q3). Utiliza una red neuronal convolucional
(CNN) para la extracción de caracteŕısticas (p.e. el flujo de tráfico) y una DQN
para la toma de decisiones. El objetivo es que los UAV viajen sin control recopilando
datos mientras que la estación de carga móvil no tripulada alcanza el punto de carga
en el menor tiempo posible, como se representa en la Fig.10. Realizan una robusta
evaluación del framework mediante simulaciones basadas en un conjunto de datos
real en Roma.
Fig. 10: Escenario para UAVs y estaciones de carga móviles [55]
En el área de redes y comunicaciones en general, el DRL se ha utilizado re-
cientemente como una herramienta para abordar con eficacia diversos problemas y
desaf́ıos. Luong et al. [29] presentan una revisión bibiográfica de este tema (Q1),
planteando además nuevos retos y oportunidades (Q2). En estas redes las entidades
necesitan tomar decisiones localmente para maximizar el rendimiento de la red bajo
la incertidumbre del entorno. En redes complejas y a gran escala, los espacios de
estado y acción suelen ser grandes, y RL puede no ser capaz de encontrar la poĺıti-
ca óptima en un tiempo razonable, por lo que se introduce el DL para superar las
deficiencias (Q2).
Tan y Hu [49] estudian la comunicación conjunta, el almacenamiento en caché y
el problema del diseño para optimizar la operatividad y la rentabilidad de las redes
de veh́ıculos (Q1). Diseñan la poĺıtica de asignación de recursos considerando la
movilidad del veh́ıculo y la restricción de la fecha ĺımite de servicio, y desarrollan un
framework de escala de tiempo múltiple con DRL (Q3, Q4). Además, proponen una
3 TRABAJOS RELACIONADOS 14
estimación de la recompensa basada en la movilidad para mitigar la complejidad
generada por el gran espacio de acción (Q7).
La aplicación más recurrente de RL en ciudades inteligentes es el control de
las señales de tráfico. Mannion et al. [30] realizan una revisión experimental de los
métodos de RL aplicados a este problema, muestran su arquitectura de control de
tráfico y discuten algunos desaf́ıos importantes que aún deben abordarse en este
campo. La congestión del tráfico urbano es un problema grave y las mejoras en el
control adaptativo de la señal de tráfico (ATSC) pueden tener un papel fundamental
en el desarrollo futuro de las ciudades inteligentes. Los enfoques de esta revisión no
aplican DL, y su uso supone una mejora evidente en algunos estudios que han ido
apareciendo posteriormente.
Uno de esos casos es el desarrollado por Lin et al. [28], que aplican DL al RL
en este ámbito de control de tráfico urbano (Q1), donde realizan experimentos de
simulación en los que demuestran que su método funciona mejor que los enfoques
tradicionales y puede manejar entornos más complejos con menos recursos (Q7).
Para ello, proponen un modelo que utiliza redes neuronales residuales (ResNet), una
función de recompensa h́ıbrida y el algoritmo PPO. Como desaf́ıo futuro destacan
el uso de otras redes neuronales para mejorar el rendimiento (Q2).
Liang et al. [25] realizan otro estudio representativo de DRL aplicado al control
de señales de tráfico (Q1), basándose en los datos recogidos de diferentes sensores
y redes vehiculares. Proponen un modelo (Q3) en el que representan el complejo
escenario del tráfico de una intersección dividiñéndolo en pequeñas cuadŕıculas y
cuantificándolo en estados (Fig 11. Los cambios de tiempo de un semáforo son las
acciones, que se modelan como un MDP de alta dimensión. La recompensa es la
diferencia de tiempo de espera acumulado entre dos ciclos. Para resolver el modelo, se
emplea una CNN para para asignar los estados a las recompensas y combinan varios
métodos del estado del arte para componer un algoritmo denominado Double Dueling
Deep Q Network (3DQN). Evalúan el modelo con una red de veh́ıculos utilizando
el simulador de movilidad urbana SUMO [22] (Q4, Q5). Según los resultados de las
simulaciones, el método propuesto puede reducir más del 20% el tiempo medio de
espera (Q7), además de superar a otros en velocidad de aprendizaje.
Un problema t́ıpico respecto a la eficiencia y confiabilidad de los servicios de
transporte público es el aglutinamiento de autobuses. Wang y Sun [53] presentan un
framework de DRL multi-agente (Fig. 12) para el control dinámico de retención en
rutas de autobuses (Q1, Q3). Utilizan una función de recompensa basada en avances
y un algoritmo PPO. Destacan unos resultados prometedores al aplicar este sistema
frente a otras estrategias utilizadas en el control coordinativo de flotas de veh́ıculos
de transporte público en operaciones del mundo real (Q4, Q7). Como desaf́ıo futuro
(Q2), proponen ampliar el framework para tener más en cuenta las incertidumbres
en la gestión de la flota, como la aleatoriedad del control de las señales de tráfico, la
diversidad en el comportamiento de conducción y ciertos escenarios extremos (por
ejemplo, aveŕıa del veh́ıculo).
3 TRABAJOS RELACIONADOS 15
Fig. 11: Escenario de control de tráfico en una intersección mediante DRL [25]
Fig. 12: Framework de DRL multi-agente para el control dinámico de autobuses [53]
3 TRABAJOS RELACIONADOS 16
Además de lo comentado anteriormente, un aspecto importante dela movili-
dad urbana inteligente es la seguridad. Los veh́ıculos autónomos (AV) cuentan con
sensores como la cámara, el radar y la comunicación entre veh́ıculos, lo que puede
exponerlos a ciberataques para intentar tomar el control de los mismos. Para garan-
tizar un control seguro de los AVs (Q1), Ferdowsi et al. [12], proponen un algoritmo
que utiliza DRL para maximizar la robustez frente a ataques (Q7). Se desarrolla en
el marco de la teoŕıa de juegos, donde el atacante intenta introducir datos erróneos a
las lecturas del sensor AV para manipular el espaciado seguro óptimo entre veh́ıcu-
los, mientras que el defensor busca minimizar las desviaciones del espaciado para
mitigar el posible efecto (Fig. 13).
Fig. 13: Modelo de seguimiento de coches con ataque cibernético [12]
Otro caso de uso del DRL en seguridad para aplicaciones de smart cities es de-
sarrollado por Shake et al. [44] en su investigación aplicada a sistemas de asistencia
sanitaria (Q1). Introducen DQNs para reducir los ataques de malware y administrar
la información de salud, donde es importante la privacidad y la confiabilidad de los
datos sensibles (Q7). La eficiencia del sistema se evalúa con resultados experimen-
tales utilizando la herramienta de simulación NS2 y comparando los resultados con
otros métodos (Q5).
Las aplicaciones de salud personal son de vital importancia actualmente, ya que
las enfermedades causadas por un estilo de vida poco saludable representan una
de las principales causas de muerte en todo el mundo. Chen et al. [7] proponen un
asesor de salud personal inteligente (SPHA), para un seguimiento y una gúıa de salud
integral (Q1). El SPHA monitoriza los estados fisiológicos y psicológicos del usuario
y evalúa su estado general de salud. Utiliza DRL para aprender continuamente de
los datos históricos y de la actividad del usuario a través de su teléfono móvil (Q7).
La toma de decisiones adaptativa en smart homes también ha tenido grandes
3 TRABAJOS RELACIONADOS 17
avances con el uso de aprendizaje por refuerzo [19]. Recientemente, Brenon et al. [5]
presentaron ARCADES, un sistema de toma de decisiones por comandos de voz en
casas inteligentes sin un contexto expĺıcitamente definido (Q1). Utiliza DRL para
extraer el contexto a partir de una representación gráfica del sistema de automati-
zación del hogar y actualiza continuamente su comportamiento según el del usuario
(Q7). Los componentes gráficos y los recursos utilizados están disponibles on-line
(Q5). El sistema es robusto a los cambios en el entorno (p.e. rotura del sensor), es
escalable y se adapta bien al contexto (Q4).
En todos los trabajos relacionados, observamos que en ninguno se hace una
revisión como la anterior, sistemática y completa para aplicaciones de todos los
dominios de ciudades inteligentes con el uso de DRL. Además, los retos y desaf́ıos
lanzados son principalmente en el manejo de los datos, en lugar de aplicaciones
y oportunidades enfocadas a los usuarios finales. Los que proponen aplicaciones
se centran en un dominio concreto y como máximo se explican dos o tres casos
de uso de ese mismo dominio. Por ello, en la siguiente sección se proponen hasta
catorce potenciales aplicaciones, para diversos dominios de ciudades inteligentes en
las que el DRL puede tener un papel importante. Por último, en el apartado de
desarrollo experimental de esta tesis se aplicará un mismo algoritmo a distintos
casos de uso, validando aśı la arquitectura implementada para diversas aplicaciones.
En algunos casos de estudio que observamos en la literatura solo se muestra un
caso concreto, en otros se afirma que es un sistema escalable pero se desarrolla una
única simulación, o bien desarrollan un framework a más alto nivel de ciudades
inteligentes, no un algoritmo de DRL aplicable de forma directa. Además, se aporta
el framework desarrollado para que puedan probarse los experimentos realizados y
ampliarlos. En conclusión, todos esos elementos son los que definen la contribución
de esta tesis respecto a los trabajos descritos del estado del arte.
4 APLICACIONES Y OPORTUNIDADES 18
4. APLICACIONES Y OPORTUNIDADES
Existen numerosas aplicaciones y servicios que pueden hacer uso del Big Data de
las ciudades inteligentes para obtener beneficios económicos, ambientales y sociales
[2]. Esto genera oportunidades en sectores como educación, sanidad, medio ambiente,
seguridad pública y transporte urbano. También encontramos muchos desaf́ıos en el
diseño, desarrollo y despliegue de dichas aplicaciones, ya que las ciudades inteligentes
son entornos muy dinámicos y en evolución.
Los trabajos relacionados han explorado métodos de DRL en varios dominios,
pero aún existe un gran margen de desarrollo y mejora para nuevas aplicaciones de
ciudades inteligentes. No siempre es posible o adecuado el uso de RL en un problema
concreto, debe cumplir ciertas caracteŕısticas para que sea viable y útil su aplicación:
¿Es un problema de control o toma de decisiones? El RL es útil en sistemas
de control y entornos en los que se toman decisiones de forma dinámica.
¿Puede mejorar recibiendo feedback del entorno? Los agentes aprenden a partir
de recompensas según sus acciones en un contexto de prueba y error.
¿Se puede modelar como un MDP? Esto implica el diseño del espacio de esta-
dos, del espacio de acciones, la función de recompensa, etc.
¿Se puede desarrollar en una simulación? Es importante un entorno simulado
que pueda reflejar correctamente el mundo real, ya que se necesitan muchas
iteraciones antes de que un algoritmo RL funcione.
Otra cuestión importante es la elección del algoritmo de RL. A parte de la versión
estándar de Deep Q-Learning [35], existen diversas variantes como Double DQN
[51], Deep Deterministic Policy Gradient (DDPG) [27], Continuous DQN (CDQN
o NAF) [16], Dueling Network DQN (Dueling DQN) [54] y otros algoritmos como
Deep SARSA [48], Asynchronous Advantage Actor-Critic (A3C) [33] y Proximal
Policy Optimization (PPO) [43].
Estos algoritmos se pueden dividir principalmente en dos grupos: métodos ba-
sados en la poĺıtica (on-policy) y en el valor (Q-value), según la forma de abordar
el problema. En los métodos on-policy se intenta optimizar directamente la poĺıti-
ca, mientras que en los de valor se intenta evaluar el rendimiento futuro esperado
(aprender una función de valor) y deducir la poĺıtica a partir de ah́ı. Otros aspectos
a tener en cuenta es si necesitamos un diseño basado en modelos (model-based o
model-free), si el espacio de acción es cont́ınuo o discreto, o si se puede combinar
con otros tipos de DNNs y métodos.
En las siguientes subsecciones se exploran oportunidades y posibles aplicaciones
de DRL para distintos dominios de ciudades inteligentes, aportando ejemplos de
aplicaciones concretas, discutiendo las mejoras que aportaŕıan dichos métodos y el
rol que el RL puede desempeñar en estas ciudades. En la Fig. 14 se muestra un
4 APLICACIONES Y OPORTUNIDADES 19
esquema de dichas aplicaciones, que se han dividido en tres ámbitos: 1) movilidad
y medio ambiente; 2) economı́a y gobierno; y 3) salud y estilo de vida.
Fig. 14: Aplicaciones y oportunidades de DRL para ciudades inteligentes
4.1. Movilidad y medio ambiente
Los servicios de movilidad urbana son cada vez más importantes debido a la
creciente población y propiedad de veh́ıculos, especialmente en las grandes ciudades.
Para ello, es necesario desarrollar soluciones inteligentes y económicas para que las
personas y los bienes se transporten de forma más eficiente y segura. Además, las
ciudades deben impulsar un uso más inteligente de los recursos, tanto por parte de
empresas y organizaciones públicas como de los propios ciudadanos, para fomentar
el crecimiento sostenible.
En este dominio, el RL ha sido utilizado principalmente en el control de señales
de tráfico y gestión energética, tal y como se ha visto en la sección de trabajos
relacionados. Se ha demostrado que es muy útil en estosproblemas espećıficos, pero
aún existen muchos desaf́ıos y servicios en los que el DRL podŕıa aportar mejoras
respecto a los sistemas actuales. A continuación se proponen algunos casos de uso,
que son potenciales aplicaciones para las ciudades inteligentes: el smart parking, la
reducción de emisiones contaminantes, el control del alumbrado público y mejoras
en el transporte público, veh́ıculos eléctricos, veh́ıculos compartidos y la recogida de
residuos urbanos.
El Smart Parking es unas de las soluciones de ciudades inteligentes que está
teniendo mayor crecimiento en todo el mundo. Cada vez más aeropuertos, universi-
dades, centros comerciales y aparcamientos públicos implementan la tecnoloǵıa en
el parking para automatizar los procesos. Las soluciones actuales incluyen sensores,
información en tiempo real y aplicaciones que permiten a los usuarios comprobar la
4 APLICACIONES Y OPORTUNIDADES 20
disponibilidad de las plazas de aparcamiento. En un futuro, y con la proliferación de
estos sitemas, se podŕıa ir un paso más allá y hacer uso del DRL para organizar el
Smart Parking de forma más eficiente y automática. Por ejemplo, dado un entorno
urbano con una serie de aparcamientos monitorizados, un sistema podŕıa aprender
a recomendar o reservar el mejor aparcamiento dado un punto de salida y de lle-
gada, minimizando mediante refuerzo parámetros como el tiempo transcurrido, las
distancias recorridas o el tráfico generado.
El sistema de transporte público facilita el flujo cont́ınuo, controlado y sostenible
de un grueso de la población que lo utiliza diariamente para llegar a su destino. En
una ciudad inteligente, se promueve el desarrollo del sistema de transporte público y
la mejora de su eficiencia, para que contribuya de manera significativa a la reducción
de la congestión del tráfico y las emisiones. Este caso podŕıa ser una variante del
problema de control de tráfico, en el que el DRL tiene buena efectividad, pero con
importantes variables adicionales. Por ejemplo, una variable a tener en cuenta seŕıa
la concentración de pasajeros, para evitar transportes demasiado llenos o vaćıos y
ajustar la frecuencia. Otro parámetro relacionado es la facilidad de conexiones con
otros transportes o rutas, para asegurar la fluidez en las distintas zonas de la ciudad.
En los últimos años ha habido un crecimiento exponencial de los servicios y apli-
caciones de veh́ıculos compartidos y por demanda. Introduciendo RL a este tipo de
servicios, se podŕıan ofrecer a los usuarios tarifas, recomendaciones y rutas más per-
sonalizadas, además de controlar la distribución de veh́ıculos y pasajeros en un área
determinada. Por ejemplo, el sistema podŕıa aprender los mejores posicionamientos
de los veh́ıculos cierto d́ıa de la semana en una franja horaria concreta y ofrecer
ofertas para rutas fijadas que beneficien el flujo de pasajeros o la tasa de ocupación
de los veh́ıculos.
Los veh́ıculos eléctricos, como bicicletas o patinetes, también han entrado con
fuerza en las ciudades con el fin de moverse de forma sostenible e inteligente. Ya
se pueden encontrar diversas aplicaciones y servicios para hacer uso de este tipo de
veh́ıculos según las necesidades de cada uno. Una aplicación del DRL para este tipo
de veh́ıculos puede ser la optimización de rutas y estaciones de carga eléctrica, con el
fin de que las posiciones de dichas estaciones y las conexiones entre ellas beneficien
lo máximo posible a los usuarios. Esto se conseguiŕıa reforzando una circulación
más rápida y segura, una buena distribución y disponibilidad de veh́ıculos por las
distintas zonas y una relación equilibrada entre la duración de carga, las distancias
en los trayectos y el número de estaciones. Por ejemplo, dada una configuración
inicial, el sistema podŕıa aprender otras configuraciones mejores añadiendo, quitando
o moviendo estaciones y distribuyendo la cantidad de veh́ıculos de cada una.
Otra cuestión relacionada con la movilidad y el medio ambiente es la recogida
de residuos urbanos. Los recorridos para dicho servicio público también se podŕıan
mejorar, aprovechando los datos recogidos tanto de los camiones como de los ba-
rrenderos. Con estos datos se reforzaŕıa una recogida de basuras más rápida y eficaz,
buscando minimizar el tiempo y distancia de ruta y el tráfico generado. Además, el
4 APLICACIONES Y OPORTUNIDADES 21
sistema podŕıa tener en cuenta aspectos como la alta o baja acumulación de basuras
en puntos concretos, para priorizar unas zonas respecto a otras.
El ahorro energético es uno de los pilares de una ciudad inteligente, y en es-
te aspecto el alumbrado urbano tiene un importante peso. Con la infraestructura
adecuada, es posible controlar de forma remota y adaptativa las luces LED del alum-
brado público para encenderlas, apagarlas o ajustar su intensidad. Esto ofrece a las
ciudades la oportunidad de maximizar los beneficios de la iluminación de bajo con-
sumo, al mismo tiempo que se mejora la seguridad de los peatones y veh́ıculos. Un
enfoque que tiene potencial para afrontar este problema de control de alumbrado
es la aplicación de DRL. La intensidad de luz se podŕıa ajustar de forma dinámica
reforzando que se consuma la menor enerǵıa posible mientras se asegura una co-
rrecta visibilidad, teniendo en cuenta aspectos como la hora, el clima o el ı́ndice de
peligrosidad peatonal y en la carretera.
Caso de uso Agentes Parámetros del entorno
Smart Parking Veh́ıculos Tiempo trascurrido
Distancia desde posición inicial
Distancia hasta objetivo
Congestión de tráfico
Transporte público Autobuses
Tranv́ıas
Metro
Tiempo y distancia
Concentración de pasajeros
Conexiones con otros transportes
Congestión de tráfico
Frecuencia y longitud de ruta
Veh́ıculos compartidos Coches Nivel de ocupación
Tránsito de personas
Tipos de usuarios
Distribución de veh́ıculos
Veh́ıculos eléctricos Bicicletas
Patinetes
Coches
Duración de carga
Distancia y tiempo
Conexiones y seguridad
Posición de estaciones
Control de alumbrado Farolas Enerǵıa consumida
Potencia eléctrica
Visibilidad
Peligrosidad
Hora y clima
Recogida de residuos urbanos Camiones Tiempo trascurrido
Distancia recorrida
Nivel de llenado de contenedores
Tab. 4: Aplicaciones y oportunidades propuestas de movilidad y medio ambiente en
ciudades inteligentes
4 APLICACIONES Y OPORTUNIDADES 22
4.2. Econoḿıa y gobierno
Las ciudades inteligentes deben desarrollar estrategias para abordar los trabajos
del futuro que impulsarán a la Industria 4.0 y ayudarán a agilizar y optimizar los
procedimientos mejorando la experiencia para las empresas y entidades públicas.
Esto incluye factores relacionados con la competitividad económica, la innovación,
la seguridad pública, la participación ciudadana, la productividad y la flexibilidad e
integración del mercado laboral.
En este ámbito el uso del RL no es muy común, podemos encontrar alguna
investigación que trata el tema del gobierno inteligente con DRL [21], pero desde el
punto de vista de la gestión de los datos y el análisis predictivo. Por lo tanto, aún
quedan numerosas aplicaciones por explorar en las que el RL puede ser una parte
importante. Se han propuesto diversas aplicaciones y mejoras a servicios que se
centran en el sector económico y de gestión pública y privada: estrategias tuŕısticas,
agricultura inteligente, seguridad pública y gestión de cadenas de suministro.
El turismo es uno de los sectores más importantes de nuestro páıs. Desarrollar
estrategias para mejorar la experiencia de los turistas podŕıa ser un uso interesante
del RL en este ámbito, especialmente por el enorme impacto económico que genera.
Por ejemplo, se podŕıan mejorar ciertas rutas o visitas tuŕısticas teniendo en cuenta
diversos factores como la popularidad, la afluencia según horas o fechas, edad de
los visitantes o las zonas de descanso y restaurantes. Además, este podŕıa ser un
ejemplo claro de los beneficios del refuerzo a partirde feedback, en este caso por
parte de los turistas, que podŕıan valorar los distintos aspectos del viaje y el sistema
aprendeŕıa automáticamente para planificaciones posteriores.
La seguridad ciudadana siempre ha sido una misión primordial en todo gobierno,
por lo que una organización eficiente de las fuerzas y elementos de seguridad es
clave. Especialmente en situaciones de gran despliegue en eventos multitudinarios
como deportes, conciertos, manifestaciones o macrofiestas. El RL podŕıa ser utilizado
para mejorar el control de acceso a dichos eventos y optimizar la seguridad. Esto
se llevaŕıa a cabo utilizando poĺıticas que favorezcan una distribución y despliegue
eficiente de las medidas de seguridad, reforzando estados en los que se minimicen las
aglomeraciones y conflictos y se maximice el flujo de personas. Se podŕıa extrapolar
del control del tráfico, caso muy estudiado como aplicación de DRL.
La agricultura inteligente busca el aumento sostenible de la productividad y
los ingresos agŕıcolas, la adaptación al cambio climático y la reducción del efecto
invernadero. Lo que el RL puede aportar a este sector son mejoras en sostenibilidad
y optimización de recursos y procesos agŕıcolas. Por ejemplo, se podŕıa optimizar
la cantidad de riego diario a cierta plantación midiendo una serie de factores tales
como la humedad, temperatura, precipitaciones o riegos anteriores. Las acciones de
regar mayor o menor cantidad con unas condiciones concretas daŕıa lugar a ciertos
estados de desarrollo de la planta, que se podŕıan reforzar para conseguir un riego
eficiente.
4 APLICACIONES Y OPORTUNIDADES 23
En el ámbito industrial, el DRL se ha utilizado habitualmente en robótica, por
ejemplo para el control de brazos robóticos [15]. Desde una perspectiva de ciudades
inteligentes, el DRL puede usarse llevar el control de las cadenas de suministro, que
abarcan la producción, la gestión de productos en almacenes, proveedores, precios,
abastecimiento y distribución. Este problema ya se ha tratado anteriormente con un
enfoque de RL [47], pero sin el uso de DNNs. Al ser un sistema tan complejo y con
tantos agentes distintos pero interconectados, la introducción de DL podŕıa suponer
una clara ventaja para modelarlo y extraer mayor potencial al uso de RL.
Caso de uso Agentes Parámetros del entorno
Estrategias tuŕısticas Viaje
Zona tuŕıstica
Afluencia
Demanda
Rasgos demográficos
Feedback
Seguridad/acceso en eventos Personal
Accesos
Congestión de accesos
Distribución de asientos
Recursos de seguridad
Agricultura inteligente Riego Crecimiento del cultivo
Humedad
Temperatura
Precipitaciones
Histórico de riegos
Cadenas de suministro Fábrica
Almacén
Camiones
Producción
Almacenamiento
Transporte
Oferta/Demanda
Ingresos
Tab. 5: Aplicaciones y oportunidades propuestas de economı́a y gobierno en ciudades
inteligentes
4.3. Salud y estilo de vida
Una ciudad verdaderamente inteligente utiliza la tecnoloǵıa y la conectividad
para mejorar el d́ıa a d́ıa de sus residentes. Se debe alentar a las comunidades a
estar conectadas a través de la construcción de edificios inteligentes, la innovación
en el sector de la salud y el uso de datos para monitorear y mejorar la calidad de
vida de los ciudadanos.
En el estado del arte, se ha observado que existen al menos un par de aplicaciones
propuestas en el ámbito de la salud y estilo de vida que utilizan DRL: un asistente
de salud personal y un sistema de control por comandos de voz en entornos de
smart homes. Estos sistemas se podŕıan ampliar para una completa monitorización
4 APLICACIONES Y OPORTUNIDADES 24
y personalización de las rutinas en un hogar inteligente. Con RL, se podŕıan controlar
todo tipo de detalles de la vida diaria, desde avisos de ciertas circunstancias o noticias
que pueden interesar al usuario, hasta la recomendación de uso de alimentos según
sus gustos, recetas y fechas de caducidad.
Otro caso de uso de DRL aplicado a casas inteligentes que aparece en los trabajos
relacionados es la detección de grifos abiertos por error para el ahorro de agua.
Esto se puede extender a la detección de cualquier tipo de anomaĺıas en edificios
inteligentes si se posee la infraestructura de sensores adecuada. El sistema podŕıa
detectar situaciones que se dan por errores o descuidos tales como dejar el frigoŕıfico
abierto o con temperatura inadecuada, el fuego de la cocina encendido o el aire
acondicionado puesto. El sistema estaŕıa reforzado con ciertas conductas y rutinas
de los inquilinos y aprendeŕıa a actuar en este tipo de situaciones irregulares, por
ejemplo, apagando el aire acondicionado (o proponerlo/avisarlo) si ha pasado cierto
tiempo encendido y, además, no coincide con los horarios habituales de uso o en los
que el inquilino se encuentra en casa.
Una aplicación centrada en el deporte y la nutrición inteligente también puede
ser una oportunidad viable, de forma similar a la aplicación de salud que utiliza
DRL. Se podŕıan optimizar rutinas de ejercicio a la vez que se complementa con
una nutrición adecuada, todo adaptado a la evolución de cada usuario. Se reforzaŕıa
la recomendación de ciertos tipos de ejercicios o dietas según parámetros como el
peso, la altura, el ı́ndice de grasa corporal, el cansancio o los objetivos individuales,
teniendo gran importancia el feedback de los usuarios.
El RL también podrá ayudar a los maestros de la próxima generación a adaptar
el aprendizaje y asesoramiento para maximizar el éxito de los estudiantes, con una
educación personalizada. Los alumnos podŕıan mejorar el desarrollo de su aprendiza-
je a través de la personalización de sus estudios, reforzando un tipo de actividades
u otras para estimular sus habilidades y su potencial en las distintas áreas. Por
ejemplo, un sistema con DRL podŕıa aprender a recomendar un ejercicio concreto
de cálculo o de lectura, o una actividad enfocada al desarrollo art́ıstico, de investiga-
ción o imaginativo para un alumno concreto. Es decir, ha aprendido que un alumno
con caracteŕısticas y resultados similares tiene un alto potencial de éxito en cierto
ámbito en el que ese tipo de ejercicio le va a ayudar a desarrollarse mejor, tanto en
el aspecto académico como en su futuro profesional.
4 APLICACIONES Y OPORTUNIDADES 25
Caso de uso Agentes Parámetros del en-
torno
Monitorización y personaliza-
ción de rutinas
Aplicación Rutina diaria
Gustos personales
Necesidades
Detección de anomaĺıas en vi-
viendas
Electrodomésticos Tiempo de uso
Horarios
Mediciones
Deporte y alimentación inteli-
gente
Aplicación Ejercicios
Dietas
Objetivos
Mediciones
Educación personalizada y
adaptativa
Aplicación Ejercicios
Perfiles
Objetivos
Resultados
Tab. 6: Aplicaciones y oportunidades propuestas de salud y estilo de vida en ciudades
inteligentes
5 CASO DE ESTUDIO 26
5. CASO DE ESTUDIO
Se han implementado pruebas de concepto de dos de los casos de uso propuestos
en el contexto de la movilidad urbana. El desarrollo incluye análisis, ajuste, apli-
cación y validación de un mismo algoritmo de DRL y la integración de distintas
herramientas en un marco de trabajo común en el que se pueden visualizar, probar
y ampliar los entornos propuestos y los experimentos realizados.
Se han seguido los consejos del art́ıculo Deep Reinforcement Learning that Mat-
ters [17] sobre reproducibilidad y técnicas experimentales adecuadas en el DRL. En
general, el paso más importante es informar de todos los hiperparámetros, detalles
de implementación, configuración experimental y métodos de evaluación, tanto para
los métodos de comparación de referencia como para los nuevos trabajos.
Los apartados que se verán en esta sección son los siguientes:
Herramientas. Presentación de las tecnoloǵıas y libreŕıas utilizadas y la ar-
quitectura del código fuente del proyecto.
Metodoloǵıa. Descripción, contexto y justificación del algoritmo utilizado.
Se explican los métodos de gradiente de poĺıticas, la regiónde confianza y
los PPO. Incluye el método de selección y los valores para el ajuste de los
hiperparámetros.
Desarollo. Dos casos de uso de movilidad urbana. Incluye los detalles de
implementación de los entornos, el ajuste de hiperparámetros del algoritmo,
el entrenamiento del agente, los experimentos realizados y los resultados de
simulación.
• Entorno SmartCab.Desarrollo del caso práctico sobre veh́ıculos autóno-
mos para transporte de pasajeros.
• Entorno WasteNet. Desarrollo del caso práctico sobre optimización de
recogida de residuos urbanos.
El código fuente libre de los experimentos de este trabajo está disponible en un
repositorio público de GitHub para que se puedan reproducir o extender los expe-
rimentos realizados [11]. El código incluye los dos entornos de RL implementados
siguiendo el estándar, la integración de las herramientas utilizadas en una interfaz
común y los notebooks desarrollados para el ajuste de hiperparámetros y entrena-
miento de los algoritmos.
5 CASO DE ESTUDIO 27
5.1. Herramientas
El caso práctico se ha desarrollado en Python 3 utilizando el framework Mesa
[32], para el modelado basado en agentes (ABM); y el framework Ray [39], que
proporciona una API universal para construir aplicaciones distribuidas y un conjunto
de libreŕıas para resolver problemas de ML. Entre ellas se encuentran RLlib [24] para
RL y Tune [26] para el ajuste de hiperparámetros. Además, Ray está integrado con
TensorFlow y OpenAI Gym [6]. Los entrenamientos se han ejecutado en notebooks
de Google Colaboratory [4] (Colab). En la Fig. 15 se muestra un esquema de la
arquitectura de herramientas utilizadas, todas de código abierto.
Fig. 15: Herramientas de Python utilizadas para el desarrollo del caso práctico
Gym. Conjunto de herramientas para desarrollar y comparar algoritmos de
RL. Ofrece una colección de problemas de prueba (entornos) con una inter-
faz compartida que se puede utilizar para desarrollar algoritmos de RL y es
compatible con TensorFlow.
TensorFlow. Plataforma end-to-end para ML, que opera a gran escala y
en entornos heterogéneos. Desarrollada por Google, es la herramienta más
utilizada en el desarrollo e investigación de DL.
Tune. Libeŕıa de Python para la ejecución de experimentos y el ajuste au-
tomático de hiperparámetros a cualquier escala. Admite distintos framework
de ML y permite la visualización de resultados con TensorBoard.
RLlib. Libreŕıa de Python que implementa distintos algoritmos de DRL del
estado del arte. Ofrece tanto una alta escalabilidad como una API unificada
5 CASO DE ESTUDIO 28
para una variedad de aplicaciones. Es compatible de forma nativa con Tensor-
Flow, aunque la mayoŕıa de sus componentes internos son independientes del
framework. Trabaja con distintos tipos de entornos, incluyendo OpenAI Gym,
entornos definidos por el usuario, multiagente y por lotes.
Mesa. Framework ABM para Python. Permite a los usuarios crear mode-
los basados en agentes usando componentes integrados (como grids espaciales
y planificadores de agentes) o implementaciones personalizadas; visualizarlos
usando una interfaz basada en navegador; y analizar sus resultados utilizando
las herramientas de análisis de datos de Python. Su objetivo es ser la alterna-
tiva basada en Python a NetLogo, Repast o MASON.
Colab. Entorno de Jupyter Notebooks preconfigurado y que se ejecuta en la
nube. Tiene limitaciones de uso, pero proporciona una GPU Tesla T4 gratuita,
que es especialmente útil para aumentar el rendimiento al entrenar modelos
de DL.
5.2. Metodoloǵıa
Se ha utilizado un algoritmo PPO como método de RL y la optimización de sus
hiperparámetros se ha llevado a cabo mediante un método de entrenamiento basado
en población (PBT) [18].
Los algoritmos PPO son una familia de métodos on-policy para RL propuesta
por OpenAI [43] (Schulman et al.), que alternan entre el muestreo de datos a través
de la interacción con el entorno, y la optimización de una función objetivo utilizando
el descenso de gradiente estocástico (SGD). Según describen los autores, los métodos
PPO tienen un rendimiento similar o mejor que otros enfoques del estado del arte,
siendo mucho más sencillos de implementar y ajustar. Por este motivo, PPO se ha
convertido en el algoritmo de RL por defecto en OpenAI.
A diferencia de los enfoques populares de Q-Learning como DQN, que pueden
aprender de los datos almacenados offline, PPO aprende online, y esto significa que
no usa una memoria Replay para almacenar experiencias pasadas, sino que aprende
directamente de lo que su agente encuentre en el entorno y una vez que se haya usado
un lote de experiencia para hacer una actualización de gradiente, la experiencia se
descarta y la poĺıtica avanza.
En el aprendizaje supervisado, se puede implementar fácilmente la función de
coste, ejecutar el descenso de gradiente en ella y obtener buenos resultados con un
ajuste de hiperparámetros relativamente pequeño. En RL no es tan obvio, uno de los
problemas es que los datos de entrenamiento que se generan dependen en śı mismos
de la poĺıtica actual porque el agente genera sus propios datos de entrenamiento al
interactuar con el entorno, en lugar de depender de un conjunto de datos estáticos
como en el aprendizaje supervisado. Esto significa que las distribuciones de datos
de las observaciones y recompensas cambian constantemente a medida que el agente
5 CASO DE ESTUDIO 29
aprende, lo que implica una importante inestabilidad en todo el proceso de entre-
namiento. Además, el RL también se caracteriza por una sensibilidad muy alta en
el ajuste de hiperparámetros y la inicialización, y a veces requiere un gran esfuerzo
para obtener buenos resultados.
5.2.1. Gradiente de poĺıticas
La función objetivo (pérdida) de gradiente de poĺıtica se define como la esperanza
sobre el logaritmo de las acciones de poĺıtica multiplicado por una estimación de la
función de ventaja:
LPG(θ) = Êt[logπθ(at|st)Ât]
θ es el parámetro de poĺıtica.
Êt denota la esperanza emṕırica a lo largo de los intervalos de tiempo.
πθ es la poĺıtica, una red neuronal que toma los estados observados del entorno
como entrada y sugiere acciones a tomar como salida.
Ât es la funcion de ventaja estimada en el momento t.
La ventaja estimada se calcula restando la suma descontada de recompensas del
episodio y la estimación de ese valor dado el estado actual. El objetivo es calcular
si la acción escogida por el agente fue mejor o peor de lo esperado. Si es positiva,
aumentará la posibilidad de escoger en el futuro dichas acciones para el mismo estado
y si es negativa se reducirá.
5.2.2. Región de confianza
Uno de los problemas de estos métodos, es que si simplemente se sigue ejecutando
el descenso de gradiente en un lote de experiencia recopilada, lo que sucederá es que
irá actualizando los parámetros de su red cada vez más lejos del rango en el que
se recopilaron estos datos. En ese caso, la función de ventaja (que ya es de por śı
una estimación con ruido) y por lo tanto su poĺıtica, acabarán siendo erróneas. El
enfoque para resolver este problema es asegurarse de que si está actualizando la
poĺıtica, nunca se aleje demasiado de la poĺıtica anterior.
Esta idea se introdujo en un documento llamado Trust Region Policy Optimiza-
tion [41] (TRPO), que es la base a partir de la cual se elaboraron los métodos PPO.
TRPO añade la restricción KL (Kullback–Leibler), que se asegura de que la poĺıtica
no se aleja demasiado de la denominada “región de confianza”.
5 CASO DE ESTUDIO 30
5.2.3. PPO
La restricción KL agrega una complejidad adicional al proceso de optimización
y, a veces, puede conducir a un comportamiento indeseado de entrenamiento. PPO
encuentra una forma de mantener las nuevas poĺıticas cercanas a las antiguas con
una implementación mucho más sencilla y que emṕıricamente funcionan al menos
igual de bien que los TRPO. Existen dos variantes de este algoritmo, PPO-Penalty y
PPO-Clip, siendo estaúltima la que se usa principalmente por su mejor rendimiento.
PPO-Clip no tiene una restricción KL en el objetivo, sino que se basa en un
clipping o recorte especializado en la función objetivo para eliminar los incentivos
que hacen que la nueva poĺıtica se aleje de la antigua:
LCLIP (θ) = Êt[min(rt(θ)Ât, clip(rt(θ), 1− ε, 1 + ε)Ât)]
θ, Êt y Ât como se definen en el gradiente de poĺıticas básico.
rt es el cociente de la probabilidad bajo las poĺıticas nueva y antigua, respec-
tivamente.
ε es un hiperparámetro, normalmente 0,1 o 0,2.
La estimación de la ventaja puede ser tanto positiva como negativa, lo que cambia
el efecto del operador principal, como se muestra en la Fig. 16. En el lado izquierdo,
se puede observar cómo la función de pérdida se aplana cuando r aumenta dema-
siado. Es decir, cuando la acción es mucho más probable con la poĺıtica actual que
con la poĺıtica anterior, se limita el efecto de la actualización del gradiente. En el
lado derecho, donde la acción teńıa un valor negativo estimado, el objetivo se apla-
na cuando r se acerca a cero. Esto corresponde a acciones que son mucho menos
probables que en la poĺıtica anterior y tendrá el mismo efecto de no exagerar una
actualización similar, que podŕıa reducir estas probabilidades de acción a cero.
Fig. 16: Ventajas positivas y negativas en la función objetivo de PPO-Clip [43]
5 CASO DE ESTUDIO 31
5.2.4. PBT
La técnica escogida para la optimización de hiperparámetros es un h́ıbrido de
los dos métodos más utilizados: la búsqueda aleatoria y el ajuste manual. En la
búsqueda aleatoria, una población de redes neuronales se entrena de forma inde-
pendiente en paralelo y al final del entrenamiento se selecciona el modelo de mayor
rendimiento. Normalmente, esto significa que solamente una pequeña fracción de
la población será entrenada con buenos hiperparámetros, desperdiciando recursos.
El ajuste manual puede dar lugar a un mejor rendimiento, el inconveniente es que
se necesita mucho tiempo para encontrar la configuración perfecta. Y, aunque hay
formas de automatizar este proceso, requiere muchas ejecuciones secuenciales de
entrenamiento para encontrar los mejores hiperparámetros.
Inspirado en los algoritmos genéticos, el método PBT comienza entrenando
múltiples redes neuronales en paralelo con hiperparámetros aleatorios, utilizando la
información del resto de la población para refinarlos y asignar recursos a los modelos
más prometedores. El proceso de explotación y exploración se realiza periódicamen-
te, asegurando que toda la población tenga un buen nivel de rendimiento de base
y también que se exploren constantemente nuevos hiperparámetros. Esto significa
que puede explotar rápidamente los buenos hiperparámetros, puede dedicar más
tiempo de entrenamiento a los modelos prometedores y, sobre todo, puede adaptar
los valores de los hiperparámetros a lo largo del entrenamiento, lo que conduce al
aprendizaje de las mejores configuraciones.
Fig. 17: Optimización de hiperparámetros con PBT en comparación con otros méto-
dos tradicionales [18]
5 CASO DE ESTUDIO 32
5.2.5. Hiperparámetros
En la Tab. 7 se describen los hiperparámetros relevantes del algoritmo PPO y que
han sido ajustados mediante la optimización PBT, con el valor por defecto que se le
asigna en la libreŕıa utilizada. La configuración de ajuste escogida se muestra en la
Tab. 8, con el valor inicial y el rango de mutaciones. El modelo de red neuronal por
defecto es una DNN completamente conectada formada por capas densas con 256
neuronas ocultas. Se ha fijado la misma semilla (123) para todos los entrenamientos.
Hiperparámetro Por defecto Descripción
clip param 0,3 Parámetro Clip del PPO
lambda 1,0 Parámetro GAE [42]
lr 5e-5 Tasa de aprendizaje
num sgd iter 30 Nº de iteraciones del SGD
sgd minibatch size 128 Tam. mini-lote en cada época
train batch size 4000 Tam. de cada época del SGD
Tab. 7: Descripción de hiperparámetros para ajuste del algoritmo PPO
Hiperparámetro Valor inicial Mutaciones
clip param 0,3 0,1-0,5
lambda 0,9 0,7-1,0
lr 5e-5 1e-3-1e-5
num sgd iter 10, 20, 30 10-30
sgd minibatch size 128, 512, 2048 128-16384
train batch size 10000, 20000, 40000 2000-160000
Tab. 8: Configuración de hiperparámetros para ajuste del algoritmo PPO
5.3. Entorno SmartCab
5.3.1. Definición
El primer entorno desarrollado está basado en el de Taxi-v3 [10] de OpenAI
Gym. Se trata de un escenario modelado como un grid 2D en el que hay distribuidas
distintas localizaciones y un veh́ıculo autónomo que se mueve en las direcciones
cardinales y cuyo objetivo es recoger un pasajero de una localización y dejarlo en
otra. Se ha añadido complejidad al entorno original, ampliando el grid y añadiendo
restricciones de movimiento del veh́ıculo sobre el mismo. A continuación se describen
las caracteŕısticas y la asignación de atributos que se han definido para el entorno.
Espacio de observación.
Posición del veh́ıculo: Tupla, coordenadas en el grid (0-7, 0-7)
5 CASO DE ESTUDIO 33
Posición del pasajero: Discreto, ı́ndice de array de localizaciones, +1 dentro
del veh́ıculo (0-4)
Posición del destino: Discreto, ı́ndice de array de localizaciones (0-3)
Espacio de acción.
Sur: 0
Norte: 1
Este: 2
Oeste: 3
Recoger pasajero: 4
Dejar pasajero: 5
Recompensas.
Movimiento: -1
Movimiento erróneo: -3
Acción correcta: +20
Acción incorrecta: -10
Estado inicial.
Posición del veh́ıculo: Fija, en la estación
Posición del pasajero: Aleatoria, de las 4 localizaciones
Posición del destino: Aleatoria, de las 4 localizaciones distinta al origen
Final del episodio.
El veh́ıculo ha recogido y dejado al pasajero correctamente
Ĺımite de 50 pasos
En este primer entorno, se le proporcionan al agente (taxi autónomo) el abanico
de las posibles acciones a puede realizar, que incluyen el avance de una casilla en el
mapa (Norte, Sur, Este, Oeste), la acción de recoger a un pasajero que tenga una
casilla de distancia alrededor de su posición, y la de dejarlo con la misma condición.
Aunque en este mapa simulado es evidente que la navegación de un punto a otro
es un problema de optimización de ruta muy sencillo, la idea es dejar total libertad
al veh́ıculo para que aprenda a desenvolverse correctamente en el entorno partiendo
desde cero. Con esto se pretende simular de forma simplificada un AV, cuyo rango
de acciones y estados seŕıa mucho más complejo (velocidad, giro, imágenes de las
cámaras, etc.). En la Fig. 18 se muestra un esquema de la proceso de DRL aplicado
al entorno descrito.
5 CASO DE ESTUDIO 34
Fig. 18: Esquema de DRL aplicado al entorno de SmartCab
5.3.2. Entrenamiento
La optimización de hiperparámetros se ha realizado mediante la ejecución 6
muestras del algoritmo PPO que van iterando y variando sus parámetros mediante el
entrenamiento PBT, con la configuración mostrada en el apartado 5.3. La condición
de parada se cumple al alcanzar 1 millón de timesteps (una acción se ejecuta en un
instante de tiempo). En la Fig. 19 se observan los resultados del entrenamiento de
cada muestra, con la progresión de sus recompensas medias por episodio a lo largo
del tiempo.
Fig. 19: Progresión de la recompensa media de 6 muestras de entrenamiento de PPO
en el entorno SmartCab para el ajuste de hiperparámetros mediante PBT.
5 CASO DE ESTUDIO 35
Al finalizar la ejecución, obtenemos la mejor configuración de hiperparámetros
resultante para el algoritmo PPO aplicado al entorno SmartCab. Con esta con-
figuración se realiza el entrenamiento final del modelo hasta su convergencia por
recompensa media (Fig. 20):
clip param: 0,2304
lambda: 0,9495512134017048
lr: 0,0005
num sgd iter: 30
sgd minibatch size: 8336
train batch size: 16672
Fig. 20: Evolución de la recompensa mı́nima, media y máxima de los episodios a lo
largo de las iteraciones del entrenamiento en el entorno SmartCab
5.3.3. Experimentos y resultados
El entorno de simulación desarrollado posibilita

Continuar navegando