TFM_ERNESTO_ESCRIBA_PINA

•
Vicente Riva Palacio

MAG BLANCA
30/4/2024
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Filosofía

152.317 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Escuela Técnica Superior de Ingenieros
Informáticos
Universidad Politécnica de Madrid
Aprendizaje por Refuerzo
mediante Deep Learning para las
Ciudades Inteligentes
Trabajo Fin de Máster
Máster Universitario en Inteligencia Artificial
AUTOR: Ernesto Escribá Pina
TUTORES: Emilio Serrano y
Javier Bajo
2021
i
AGRADECIMIENTOS
Me gustaŕıa expresar mi agradecimiento a todas aquellas personas que me han
apoyado y ayudado durante la realización de este Trabajo de Fin de Máster. Espe-
cialmente a mi tutor Emilio, que siempre ha valorado mi esfuerzo y me ha guiado.
Pese a no poder mostrar toda la constancia que me habŕıa gustado y tener que
posponer durante un peŕıodo de tiempo los plazos ideados inicialmente, ha seguido
confiando en mi trabajo para conseguir presentar una buena tesis. También agra-
decer a familia, compañeros y amigos, que son los primeros que me han aguantado
y animado durante esta estapa, especialmente en los momentos de mayor agobio y
carga de trabajo, tanto a nivel personal como profesional. Gracias por todo.
ii
RESUMEN
Las ciudades inteligentes surgen como un medio con el que crear grandes opor-
tunidades de desarrollo para sus habitantes, gestionando las áreas urbanas de forma
más eficiente y sostenible, logrando mejoras en el aspecto económico, social y am-
biental y en la calidad de vida de los ciudadanos. Actualmente, el gran desarrollo de
la Inteligencia Artificial (IA) y el Internet de las cosas (IoT) se debe principalmen-
te a tres aspectos: el aumento de la cantidad de datos (Big Data), la aparición de
algoritmos avanzados de IA y el aumento de la potencia de computación. En este
contexto encontramos el Deep Learning (DL), el aprendizaje por refuerzo (RL) y
su combinación (DRL), que han obtenido un gran éxito en distintos dominios de
aplicación en los últimos años, con un interés creciente.
Los objetivos de la tesis son: 1) el estudio detallado del estado del arte, definien-
do el contexto con los conceptos de DL, RL y smart city y realizando una revisión
sistemática de los trabajos relacionados; 2) la exploración de oportunidades y pro-
puesta de aplicaciones novedosas no abordadas previamente con el uso de DRL,
describiendo el rol que puede desempeñar en el futuro; y 3) el desarrollo de un caso
de estudio sobre aplicaciones de movilidad urbana, con resultados experimentales en
simulaciones para apoyar la hipótesis de que su uso es útil y viable.
La contribución de este TFM es la revisión sistemática completa para todos los
dominios de las ciudades inteligentes con el uso de DRL; la propuesta y descripción
de diversas aplicaciones de DRL con potencial en distintos componentes de las ciu-
dades inteligentes (más amplia y desarrollada que cualquier propuesta vista en la
literatura); y la aplicación y validación de un mismo algoritmo de DRL para casos
de usos distintos, además del desarrollo de un entorno de simulación en el que se
pueden probar los experimentos realizados y ampliarlos.
El caso de estudio implica el desarrollo de dos aplicaciones de DRL en entornos de
movilidad urbana. Para cada uno se implementa y entrena un agente con el algoritmo
Proximal Policy Optimization (PPO). El primer entorno (SmartCab) consiste en
un veh́ıculo autónomo cuya función es la de recoger y dejar pasajeros. Sirve como
prueba de concepto, ya que sus resultados no son directamente aplicables. El segundo
entorno (WasteNet), tiene como objetivo la optimización de la recogida de residuos
urbanos para una red de contenedores. Los resultados son muy interesantes, ya que
muestran una reducción notable de la ruta frente a las alternativas básicas, y en un
entorno escalable.
iii
SUMMARY
Smart cities emerge as a means to create great development opportunities for
their inhabitants, managing urban areas in a more efficient and sustainable way,
achieving improvements in the economic, social and environmental aspects and in
the quality of life of citizens. Currently, the great development of Artificial Intelligen-
ce (AI) and the Internet of Things (IoT) is mainly due to three aspects: the increase
in the amount of data (Big Data), the emergence of advanced AI algorithms and
the increased computing power. In this context, we find Deep Learning (DL), Rein-
forcement Learning (RL) and their combination (DRL), which have obtained great
success in different application domains in recent years, with a growing interest.
The aims of the thesis are: 1) a detailed study of the State of the Art, defining
the context with the concepts of DL, RL and smart city and performing a systema-
tic review of related work; 2) the exploration of opportunities and proposal of novel
applications not previously addressed with the use of DRL, describing the role it can
play in the future; and 3) the development of a case study on urban mobility appli-
cations, with experimental results in simulations in order to support the hypothesis
that this approach is useful and feasible.
The contribution of this TFM is the complete systematic review for all domains
of smart cities with the use of DRL; the proposal and description of several DRL
applications with potential in different components of smart cities (more extensive
and developed than any proposal seen in the literature); and the application and
validation of the same DRL algorithm for different case studies, in addition to the
development of a simulation environment in which the experiments performed can
be tested and extended.
The case study involves the development of two DRL applications for urban
mobility environments. For each one, an agent is implemented and trained with
Proximal Policy Optimization (PPO) algorithm. The first environment (SmartCab)
consists of an autonomous vehicle (AV) whose purpose is to pick up and drop off
passengers. It serves as a proof of concept, as its results are not directly applicable.
The second environment (WasteNet) aims at optimizing urban waste collection for
a network of dumpsters. The results are very interesting, as they show a remar-
kable reduction of the route compared to the basic alternatives, and in a scalable
environment.
iv
Índice
1. INTRODUCCIÓN Y OBJETIVOS . . . . . . . . . . . . . . . . . . . 1
1.1. Introducción y motivación . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Objetivos y aportación . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. CONTEXTO Y ANTECENDENTES . . . . . . . . . . . . . . . . . . 4
2.1. Smart cities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Aprendizaje por refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3. Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4. Aprendizaje por refuerzo con Deep Learning . . . . . . . . . . . . . . 7
3. TRABAJOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . 9
4. APLICACIONES Y OPORTUNIDADES . . . . . . . . . . . . . . . . 18
4.1. Movilidad y medio ambiente . . . . . . . . . . . . . . . . . . . . . . . 19
4.2. Economı́a y gobierno . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3. Salud y estilo de vida . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5. CASO DE ESTUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2. Metodoloǵıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.1. Gradiente de poĺıticas . . . . . . . . . . . . . . . . . . . . . . 29
5.2.2. Región de confianza . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.3. PPO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.2.4. PBT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2.5. Hiperparámetros . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3. Entorno SmartCab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.3.2. Entrenamiento . . . . . . . . . . .. . . . . . . . . . . . . . . 34
5.3.3. Experimentos y resultados . . . . . . . . . . . . . . . . . . . . 35
5.4. Entorno WasteNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.4.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.4.2. Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4.3. Experimentos y resultados . . . . . . . . . . . . . . . . . . . . 40
6. CONCLUSIONES Y TRABAJOS FUTUROS . . . . . . . . . . . . . 42
v
Índice de figuras
1. Resumen gráfico de la tesis . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Los seis indicadores de ciudad inteligente [3] . . . . . . . . . . . . . . 4
3. Categoŕıas de aprendizaje automático [9] . . . . . . . . . . . . . . . . 5
4. Interacción agente-entorno en un MDP [48] . . . . . . . . . . . . . . . 6
5. DNN feedforward [50] . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6. Esquema básico de un sistema DRL [31] . . . . . . . . . . . . . . . . 7
7. DNN utilizada en la arquitectura de la DQN de DeepMind [34] . . . . 8
8. Sistema de control térmico de un edificio mediante DRL [13] . . . . . 12
9. Entorno de simulación integrando CitySim y TensorFlow [52] . . . . . 12
10. Escenario para UAVs y estaciones de carga móviles [55] . . . . . . . . 13
11. Escenario de control de tráfico en una intersección mediante DRL [25] 15
12. Framework de DRL multi-agente para el control dinámico de auto-
buses [53] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
13. Modelo de seguimiento de coches con ataque cibernético [12] . . . . . 16
14. Aplicaciones y oportunidades de DRL para ciudades inteligentes . . . 19
15. Herramientas de Python utilizadas para el desarrollo del caso práctico 27
16. Ventajas positivas y negativas en la función objetivo de PPO-Clip [43] 30
17. Optimización de hiperparámetros con PBT en comparación con otros
métodos tradicionales [18] . . . . . . . . . . . . . . . . . . . . . . . . 31
18. Esquema de DRL aplicado al entorno de SmartCab . . . . . . . . . . 34
19. Progresión de la recompensa media de 6 muestras de entrenamiento
de PPO en el entorno SmartCab para el ajuste de hiperparámetros
mediante PBT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
20. Evolución de la recompensa mı́nima, media y máxima de los episodios
a lo largo de las iteraciones del entrenamiento en el entorno SmartCab 35
21. Ejemplo de simulación del entorno SmartCab paso a paso . . . . . . . 36
22. Esquema de DRL aplicado al entorno de WasteNet . . . . . . . . . . 38
23. Progresión de la recompensa media de 8 muestras de entrenamiento
de PPO en el entorno WasteNet para el ajuste de hiperparámetros
mediante PBT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
24. Evolución de la recompensa mı́nima, media y máxima de los episodios
a lo largo de las iteraciones del entrenamiento en el entorno WasteNet 39
25. Ejemplo de simulación del entorno WasteNet paso a paso . . . . . . . 40
vi
Índice de tablas
1. Trabajos potenciales y seleccionados de las distintas fuentes . . . . . 9
2. Preguntas de investigación para los art́ıculos seleccionados . . . . . . 10
3. Aplicaciones para ciudades inteligentes de los trabajos relacionados . 10
4. Aplicaciones y oportunidades propuestas de movilidad y medio am-
biente en ciudades inteligentes . . . . . . . . . . . . . . . . . . . . . . 21
5. Aplicaciones y oportunidades propuestas de economı́a y gobierno en
ciudades inteligentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6. Aplicaciones y oportunidades propuestas de salud y estilo de vida en
ciudades inteligentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7. Descripción de hiperparámetros para ajuste del algoritmo PPO . . . . 32
8. Configuración de hiperparámetros para ajuste del algoritmo PPO . . 32
9. Resultados medios por ruta del entorno WasteNet para distintos tipos
de agente durante 1000 episodios. . . . . . . . . . . . . . . . . . . . . 41
vii
Glosario de abreviaturas
A3C Algoritmo aśıncrono de DQN (Asynchronous Advantage Actor-Critic)
ABM Modelado basado en agentes (Agent-Based Modeling)
ANN Red neuronal artificial (Artificial Neural Network)
ARCADES Adaptive Reinforced Context-Aware Deep Decision System
ATSC Control adaptativo de la señal de tráfico (Adaptive Traffic Signal Control)
AV Veh́ıculo autónomo (Autonomous Vehicle)
BLE Bluetooth de baja enerǵıa (Bluetooh Low Energy)
CDQN Deep Q-Network cont́ınua (Continuous DQN)
CNN Red neuronal convolucional (Convolucional Neural Network)
DDPG Algoritmo de Q-learning (Deep Deterministic Policy Gradient)
DL Aprendizaje profundo (Deep Learning)
DNN Red neuronal profunda (Deep Neural Network)
DQN Red profunda de Q-Learning (Deep Q-Network)
DRL Aprendizaje por refuerzo con Deep Learning (Deep Reinforcement Learning)
FNN Red neuronal feedforward (Feedforward Neural Network)
HVAC Climatización (Heating Ventilating and Air Conditioning)
IA Inteligencia Artificial
IoT Internet de las cosas (Internet of Things)
KL Divergencia de Kullback-Leibler
MDP Proceso de decisión de Markov (Markov Decision Process)
ML Aprendizaje automático (Machine Learning)
PBT Entrenamiento basado en la población (Population Based Training)
PPO Método de RL basado en poĺıticas (Proximal Policy Optimization)
RL Aprendizaje por refuerzo (Reinforcement Learning)
RNN Red neuronal recurrente (Recurrent Neural Network)
viii
SARSA Algoritmo de aprendizaje de poĺıticas para un MDP
(State–Action–Reward–State–Action)
SGD Descenso de gradiente estocástico (Stochastic Gradient Descent)
SPHA Asesor de salud personal inteligente (Smart Personal Health Advisor)
SUMO Simulador de movilidad urbana (Simulation of Urban MObility)
TIC Tecnoloǵıas de la información y la comunicación
TRPO Método de RL basado en poĺıticas (Trust Region Policy Optimization)
TSP Problema del viajante (Travelling Salesman Problem)
UAV Veh́ıculo aéreo no tripulado (Unmanned Aerial Vehicle)
VAE Codificador automático variacional (Variational Autoencoder)
1 INTRODUCCIÓN Y OBJETIVOS 1
1. INTRODUCCIÓN Y OBJETIVOS
1.1. Introducción y motivación
Las ciudades son los principales focos de actividad humana y económica. Tienen
el potencial para crear grandes oportunidades de desarrollo para sus habitantes,
aunque también generan una serie de problemas que pueden ser dif́ıciles de abordar
a medida que crecen en tamaño y complejidad. Con la innovación y el desarrollo de
las TIC, el concepto de smart city surge como un medio para lograr ciudades más
eficientes y sostenibles. Esto implica una mejora en el aspecto económico, social y
ambiental, y por tanto, en la calidad de vida de sus ciudadanos.
En los últimos años, la Inteligencia Artificial (IA) ha entrado en una nueva era
de desarrollo debido principalmente a los cambios o avances en tres aspectos: el
aumento de la cantidad de datos (Big Data), la aparición de algoritmos avanzados
de IA y el aumento capacidad de computación y la potencia del hardware. En este
contexto encontramos el Deep Learning [14] (DL) y el aprendizaje por refuerzo [48]
(RL), que se han utilizado en ćırculos académicos durante muchos años, pero que
han llegado recientemente al mundo industrial para la investigación orientada a la
aplicación. Su combinación [23] (DRL) también ha obtenido un gran éxito en varios
dominios de aplicación en los últimos años, con un interés creciente.
Los servicios inteligentes son un elemento importante de los ecosistemas de las
ciudades inteligentes y de la Internet de las cosas (IoT), donde la inteligencia que
hay detrás los servicios se obtiene y mejora a través de los datos sensoriales, gracias
a los avances en aplicaciones de usuario, infraestructuras, redes y dispositivos. Pro-
porcionar una gran cantidad de datos de entrenamiento no siempre es factible, por
lo que también debemos considerar formas alternativas que incorporen y aprovechen
los datos sin etiquetar. La alternativapropuesta es el DRL, capaz de aprender en un
entorno concreto sin necesidad de datos etiquetados mediante el RL, y de afrontar
problemas de alta complejidad y grandes volúmenes de datos, gracias al uso del DL.
La movilidad urbana es una de las preocupaciones más importantes que se deben
tener en cuenta en el área de investigación de las ciudades inteligentes. A medida
que aumenta la población y la propiedad de veh́ıculos, las ciudades sufren el gran
volumen de tráfico que supera su capacidad, lo que aumenta la congestión del tráfi-
co, las emisiones de los veh́ıculos y el retraso en los viajes en entornos de tráfico
urbano. En este contexto, es necesario desarrollar soluciones inteligentes y económi-
cas para mejorar la calidad de la movilidad para los usuarios de la carretera, tanto
particulares como de servicios públicos y privados. La movilidad compartida, los
veh́ıculos autónomos, la optimización de rutas y estrategias de transporte, el IoT y
el análisis avanzado de datos permiten que las personas, servicios y bienes se muevan
más rápido, más seguros y de forma más barata, limpia y eficiente.
1 INTRODUCCIÓN Y OBJETIVOS 2
1.2. Objetivos y aportación
El objetivo principal de este TFM es el estudio de aplicaciones de DRL en ciu-
dades inteligentes. De este objetivo principal se derivan los siguientes subobjetivos,
que coinciden con los tres pilares fundamentales de la tesis:
Estudio detallado del estado del arte, definiendo y poniendo en contexto los
conceptos de DL, RL y smart city (Sección 2) y realizando una revisión sis-
temática de los trabajos de la literatura especializada que combinan dichos
conceptos y sus aplicaciones (Sección 3).
Exploración de oportunidades y propuesta de aplicaciones novedosas que no se
hayan tratado previamente con el uso de DRL, describiendo el rol que puede
desempeñar en el futuro de las ciudades inteligentes (Sección 4).
Desarrollo de un caso de estudio sobre aplicaciones de movilidad urbana, apli-
cando alguna técnica de DRL al problema en entornos simulados y obteniendo
resultados experimentales para apoyar la hipótesis de que su uso es útil y viable
(Sección 5).
De dichos objetivos principales se extrae la contribución de este TFM:
La revisión sistemática completa y genérica para todos los dominios de las
ciudades inteligentes con el uso de DRL. En la literatura encontramos estado
del arte concretos para los dominios de los casos de estudio que desarrollan.
La propuesta de potenciales aplicaciones de DRL para todos los dominios
de ciudades inteligentes. En la literatura no encontramos dicha exploración de
oportunidades y las propuestas de aplicaciones no son amplias ni desarrolladas.
La aplicación de un mismo algoritmo de DRL para distintos casos de uso con
la misma configuración de ajuste de hiperparámetros, además del desarrollo
de un entorno de simulaciones en el que se pueden reproducir los experimentos
realizados y ampliarlos. El código fuente libre y abierto está disponible para
el investigador interesado en un repositorio público [11].
En la Fig. 1 se muestra un mapa de contenidos a modo de sumario.
1 INTRODUCCIÓN Y OBJETIVOS 3
Fig. 1: Resumen gráfico de la tesis
2 CONTEXTO Y ANTECENDENTES 4
2. CONTEXTO Y ANTECENDENTES
En esta sección se presentan los conceptos de ciudad inteligente, RL, DL y DRL,
definiéndolos, proporcionando antecedentes y mostrando su utilidad.
2.1. Smart cities
Las ciudades inteligentes son zonas urbanas que utilizan diversos datos para
mejorar la calidad de vida de los ciudadanos en diferentes áreas, servicios e in-
fraestructuras de la ciudad. Los datos son recolectados de distintas fuentes como
smartphones, ordenadores, sensores ambientales, cámaras, GPS y de los propios
ciudadanos. Estos datos son procesados y analizados para monitorizar y gestionar
los recursos de la ciudad de manera inteligente, eficiente y sostenible.
El concepto de smart city es amplio y no está totalmente definido, combinando
diversos aspectos de la vida y componentes de la ciudad. En la literatura encontra-
mos diferentes conceptos en los que se pueden enmarcar las ciudades inteligentes
según sus aplicaciones, servicios y necesidades. Se pueden clasificar en seis campos o
dimensiones principales (Fig. 2), que representan los aspectos espećıficos de una ciu-
dad en los que las iniciativas inteligentes generan impacto para lograr los objetivos
esperados de una estrategia de ciudad inteligente [38]:
Smart Governance. Gobernabilidad flexible, transparente y eficiente.
Smart Economy. Economı́a local e infraestructuras.
Smart Mobility. Gestión del tráfico y transporte público.
Smart Environment. Sostenibilidad, enerǵıa y contaminación.
Smart People. Cohesión social, educación y cultura.
Smart Living. Viviendas, salud y seguridad.
Fig. 2: Los seis indicadores de ciudad inteligente [3]
2 CONTEXTO Y ANTECENDENTES 5
2.2. Aprendizaje por refuerzo
El RL es una de las tres categoŕıas en las que se divide el aprendizaje automáti-
co (ML), separada del aprendizaje supervisado y el no supervisado (Fig. 3). El RL
permite que agentes aprendan automáticamente qué acciones tomar para maximi-
zar una recompensa, dada una determinada situación o entorno. No se considera
aprendizaje supervisado porque no se basa estrictamente en un conjunto de datos
etiquetados. Y tampoco es no supervisado, ya que tiene un objetivo distinto (el no
supervisado busca aprender una estructura de datos, no una secuencia de acciones).
Fig. 3: Categoŕıas de aprendizaje automático [9]
El RL se suele modelar como un proceso de decisión de Markov (MDP), en el
que un agente interactúa con un entorno (Fig. 4):
La recompensa R es una señal de retroalimentación que indica cómo de bien
está actuando el agente en un momento dado.
El estado S es una descripción del entorno en el que se encuentra el agente.
La acción A que realiza un agente en cada paso es una función de R y S.
La poĺıtica P es la asignación de los estados del entorno a las acciones. Define
la manera de comportarse del agente en un momento determinado, dada una
situación determinada.
La función de valor V mide cómo de buena es cada posición a largo plazo.
El modelo M es la representación del agente del entorno, es decir, cómo cree
el agente que se va a comportar el entorno.
2 CONTEXTO Y ANTECENDENTES 6
Fig. 4: Interacción agente-entorno en un MDP [48]
EL RL se usa a menudo en robótica, juegos y navegación. Un algoritmo RL t́ıpico
funciona con un conocimiento limitado del entorno y con una retroalimentación
limitada sobre la calidad de las decisiones. Muchos de los problemas del mundo real
pueden tener una enorme complejidad en distintos aspectos, por lo que en estos
casos el RL básico es insuficiente y es necesaria la introducción de técnicas de DL.
2.3. Deep Learning
El DL es un subcampo del aprendizaje automático que utiliza modelos compues-
tos por capas de procesamiento múltiples, que pueden aprender representaciones de
grandes conjuntos de datos con múltiples niveles de abstracción. Está basado en el
uso de redes neuronales artificiales (ANNs).
Una ANN es un modelo computacional no lineal basado en la estructura neuronal
del cerebro que puede aprender a realizar tareas como clasificación, predicción, toma
de decisiones y visualización. Consta de neuronas artificiales y está organizada en
tres capas interconectadas: entrada, oculta y salida. Cada neurona tiene entradas
ponderadas (sinapsis), una función de activación (define la salida dada una entrada)
y una salida. Las sinapsis son los parámetros ajustables que convierten una red
neuronal en un sistema parametrizado.
Fig. 5: DNN feedforward [50]
2 CONTEXTO Y ANTECENDENTES 7
El término DL proviene de las redes neuronales con dos o más capas ocultas (Fig.
5), que se denominan redes neuronales profundas (DNNs). Existen dos modelos
t́ıpicos de DNN, la red neuronal feedforward (FNN) y la red neuronal recurrente
(RNN). En la FNN la informaciónse mueve en una sola dirección, siendo el modelo
más conocido la red neuronal convolucional (CNN). La RNN es la variante recursiva
en la que las conexiones entre las neuronas forman ciclos dirigidos.
En los últimos años, el DL ha demostrado su enorme potencial en distintas áreas,
especialmente el reconocimiento de imágenes y del habla [14], y ha sido ampliamente
utilizado como tecnoloǵıa para resolver problemas de RL [23].
2.4. Aprendizaje por refuerzo con Deep Learning
La combinación de DL con RL ha inducido un nuevo campo de investigación,
llamado DRL, que integra la percepción de DL y la toma de decisiones de RL. Por
lo tanto, el DRL puede implementar una variedad de tareas que requieren tanto
análisis de datos en brutos de alta dimensionalidad como el control de poĺıticas. En
la Fig. 6 se muestra la estructura básica de un sistema DRL.
Fig. 6: Esquema básico de un sistema DRL [31]
Uno los primeros intentos exitosos de combinar RL y DNNs fue desarrollado por
Google Deepmind en 2015 [34]. Consist́ıa en un sistema que era capaz jugar a 49
juegos de Atari a un nivel comparable al de jugadores profesionales, utilizando una
Deep Q-Network o DQN (Fig. 7).
Esta investigación fue un gran avance para el posterior desarrollo de AlphaGo
[46], que mostró al DRL como una de las áreas de investigación más prometedoras
de la IA. Se convirtió en el primer programa en derrotar a un jugador humano
profesional en el juego de mesa GO, considerado como uno de los juegos más dif́ıciles
del mundo para la IA debido a la incréıble cantidad de escenarios y movimientos
diferentes.
2 CONTEXTO Y ANTECENDENTES 8
Fig. 7: DNN utilizada en la arquitectura de la DQN de DeepMind [34]
Desde ese momento, el DRL ha resuelto distintas limitaciones del aprendizaje
por refuerzo. Estas limitaciones incluyen la diversidad de dominios de aplicación,
la necesidad de entornos controlados y su mala escalabilidad para espacios de alta
dimensión [35].
El DRL mejora significativamente la velocidad de aprendizaje, especialmente
en los problemas con grandes espacios de estado y de acción como es el caso de
sistemas IoT con miles de dispositivos [29]. Además, distintos problemas en este
tipo de entornos inteligentes pueden ser modelados como juegos. El enfoque necesita
retroalimentación para mejorar el rendimiento del sistema pero no tiene necesidad
de datos etiquetados. Esto puede ayudar a extraer más valor de los datos y a abordar
ciertos desaf́ıos de las ciudades inteligentes, ofreciendo soluciones adaptativas.
El desperdicio de datos es otra motivación importante para el uso del DRL, ya
que en ciudades inteligentes pueden generarse cientos o miles de Gigabytes de datos
por segundo. Se estimó que hasta el 2012 solo se hab́ıan analizado aproximadamente
el 0,5% de los 2,8 Zettabytes (ZB) de datos almacenados y que el 3% de ellos estaban
etiquetados [36]. Esto resalta el desaf́ıo que supone el aprovechamiento de esa gran
cantidad de datos, especialmente de los no etiquetados, de los que el DRL se puede
beneficiar.
3 TRABAJOS RELACIONADOS 9
3. TRABAJOS RELACIONADOS
Las ciudades inteligentes y el DRL son conceptos recientes y que se encuentran
en auge, por lo que los trabajos relacionados más importantes se concentran en los
últimos años.
Se ha realizado una revisión sistemática de los art́ıculos de investigación relacio-
nados con el uso del DRL para las ciudades inteligentes. Para ello se han utilizado
las siguientes palabras clave: deep reinforcement learning + smart city / smart home
/ smart mobility / smart governance / smart living / smart environment / smart
building / intelligent environment / ambient intelligence / urban mobility. En la
Tab. 1 se pueden observar las fuentes utilizadas para realizar dicha búsqueda, el
número de resultados y de trabajos seleccionados.
Fuente Trabajos potenciales Trabajos seleccionados
IEEE Xplore 254 7
ResearchGate 100 5
Springer Link 91 1
Google Scholar 2970 2
Total 3415 15
Tab. 1: Trabajos potenciales y seleccionados de las distintas fuentes
Además, se han establecido una serie de preguntas de investigación para desglosar
las caracteŕısticas de los art́ıculos que se han considerado más relevantes, y discutir
su posible contribución a este trabajo:
Q1: ¿Plantea servicios o aplicaciones de ciudades inteligentes?
Q2: ¿Lanza desaf́ıos u oportunidades futuras?
Q3: ¿Propone un framework o arquitectura?
Q4: ¿Son escalables los métodos/experimentos?
Q5: ¿Trabaja con datos, entornos o simuladores disponibles?
Q6: ¿Proporciona software propio o código fuente de lo propuesto?
Q7: ¿Justifica la necesidad o ventaja del RL respecto a otros métodos?
Los art́ıculos seleccionados se muestran en la Tab. 2, donde se encuentran mar-
cados en caso de satisfacer la pregunta de investigación correspondiente. Además, a
cada publicación se le ha asignado una puntuación o valoración (1-4) calculada en
función de lo que puede aportar a este TFM.
3 TRABAJOS RELACIONADOS 10
Referencia Q1 Q2 Q3 Q4 Q5 Q6 Q7 Puntuación
[5] X X X X ���
[7] X X X X �
[12] X X X ���
[13] X X X X X ���
[25] X X X X X ����
[28] X X X X X ����
[29] X X X ��
[36] X X X X X ����
[37] X X X X X ���
[44] X X X ��
[49] X X X X ��
[52] X X X X X ��
[53] X X X X X ����
[55] X X X X ����
[56] X X X ����
Tab. 2: Preguntas de investigación para los art́ıculos seleccionados
Es interesante conocer las aplicaciones concretas de ciudades inteligentes que
utilizan métodos de DRL, para estudiar en qué tipo de servicios son útiles y en
qué pueden mejorarlos. Además, surgen potenciales aplicaciones que están aún sin
explorar mediante estas técnicas, las cuales se comentarán en la siguiente sección.
En la Tab. 3 se muestra el dominio de las aplicaciones de los trabajos relacionados.
Referencia Entorno Dominio de aplicación
[5] Smart Home Control por voz
[7] Smart Health Asistente de salud personal
[12] Smart Mobility Seguridad en AVs
[13] Smart Building Eficiencia energética
[25] Smart Mobility Control de tráfico
[28] Smart Mobility Control de tráfico
[29] Smart City Redes y comunicación
[36] Smart Environment Administración de recursos
[37] Smart Building Localización en interiores
[44] Smart Health Seguridad en app de salud
[49] Smart Mobility Redes de veh́ıculos
[52] Smart Building Gestión energética
[53] Smart Mobility Control de transporte público
[55] Smart Mobility Ahorro energético en AVs
[56] Smart Grid Redes eléctricas
Tab. 3: Aplicaciones para ciudades inteligentes de los trabajos relacionados
3 TRABAJOS RELACIONADOS 11
El uso del Big Data de la ciudades inteligentes desde la perspectiva de apren-
dizaje automático es un desaf́ıo importante debido a su enorme desarrollo en los
últimos años. Mohammadi y Al-Fuqaha [36] intentan arrojar luz a este desaf́ıo y
proponen un framework escalable (Q3, Q4) que usa DRL. Utilizan un aprendizaje
semi-supervisado, donde una pequeña cantidad de datos de feedback de usuarios
sirve como datos etiquetados. Dichos datos se combinan con los no etiquetados para
converger hacia mejores poĺıticas de control (Q7). La interacción con los ciudada-
nos proporcionando feedback puede aportar un valor añadido en métodos de DRL,
optimizando el sistema de recompensas.
Se describen también casos de uso sobre la administración eficiente de recursos,
que incluye la gestión de agua, enerǵıa y agricultura (Q1). Además, proponen retos
y ĺıneas futuras de investigación para incorporar este tipo de técnicas a los servicios
de ciudades inteligentes (Q2). Es interesante el caso de uso sobre la falta de agua y
el impacto de los medidores de agua inteligentes. Estos sistemas pueden ser capaces
de detectar cuándo el grifo se queda abierto por error, resultando en un 12% de
ahorro de agua en un año en el caso de estudio de una ciudad australiana. Esto se
podŕıa extrapolar a otros casos de uso en los que sea posible utilizar sistemas de
control similares.
Los mismos autores plantean en otro art́ıculo relacionado [37] unasolución al
problema de localización en interiores en el contexto de los smart buildings (Q1),
basada en la fuerza de la señal BLE (Bluetooth Low Energy). Utilizan nuevamen-
te el modelo semi-supervisado propuesto (Q3) y Variational Autoencoders (VAE),
realizando experimentos en un entorno real y obteniendo mejoras en los resultados
comparando con otros modelos (Q7).
Otro reto importante en los edificios inteligentes es el ahorro energético. Gao et
al. [13] hablan del desaf́ıo (Q2) que supone reducir el consumo de la climatización o
HVAC (calefacción, ventilación y aire acondicionado). Esto involucra varios factores
que influyen en el entorno de un edificio, generalmente dif́ıciles de modelar y que
pueden ser diferentes de un caso a otro (Q7). Para resolverlo, proponen un framework
(Q3) basado en DRL que optimiza el confort térmico de los ocupantes del edificio,
como se observa en la Fig. 8. Para evaluar los resultados construyen un simulador
de control térmico usando el software TRNSYS y varios datasets disponibles (Q5).
Una herramienta útil para este dominio puede ser el entorno de simulación in-
tegrado (Q3, Q5) que han desarrollado Vázquez-Canteli et al. [52], para la gestión
de la enerǵıa en ciudades inteligentes. Utilizan la libreŕıa de DL TensorFlow [1],
combinada con un simulador de enerǵıa urbana denominado CitySim [40]. Aplican
DRL en dos casos de estudio de ahorro de enerǵıa y respuesta a la demanda (Q1) y
aseguran que permitirá a los investigadores probar algoritmos de aprendizaje para
diversas aplicaciones en el entorno construido (Q6).
3 TRABAJOS RELACIONADOS 12
Fig. 8: Sistema de control térmico de un edificio mediante DRL [13]
Fig. 9: Entorno de simulación integrando CitySim y TensorFlow [52]
Por otro lado, las llamadas redes eléctricas inteligentes o smart grids son una
tendencia en el desarrollo de los sistemas de enerǵıa. Zhang et al. [56] proporcionan
una visión general del gran potencial del DRL para aplicaciones en dichas redes (Q1,
Q2, Q7). Desde el punto de vista tecnológico, estos métodos se pueden aplicar en
predicción y detección de anomaĺıas, apoyo a la toma de decisiones para el control,
etc. Para las empresas, se puede utilizar por ejemplo en predicción de generación
renovable, detección de defectos o fallas de equipos, seguridad, respuesta a la de-
manda y pronóstico de carga, cubriendo casi todos los campos técnicos de las redes
inteligentes.
3 TRABAJOS RELACIONADOS 13
El ahorro energético es también esencial para la movilidad, y en ese contexto
se desarrolla el art́ıculo de Zhang et al. [55], en el que se propone utilizar DRL
para habilitar el control de veh́ıculos voladores no tripulados (UAV), mediante un
framework llamado DRL-RVC (Q1, Q3). Utiliza una red neuronal convolucional
(CNN) para la extracción de caracteŕısticas (p.e. el flujo de tráfico) y una DQN
para la toma de decisiones. El objetivo es que los UAV viajen sin control recopilando
datos mientras que la estación de carga móvil no tripulada alcanza el punto de carga
en el menor tiempo posible, como se representa en la Fig.10. Realizan una robusta
evaluación del framework mediante simulaciones basadas en un conjunto de datos
real en Roma.
Fig. 10: Escenario para UAVs y estaciones de carga móviles [55]
En el área de redes y comunicaciones en general, el DRL se ha utilizado re-
cientemente como una herramienta para abordar con eficacia diversos problemas y
desaf́ıos. Luong et al. [29] presentan una revisión bibiográfica de este tema (Q1),
planteando además nuevos retos y oportunidades (Q2). En estas redes las entidades
necesitan tomar decisiones localmente para maximizar el rendimiento de la red bajo
la incertidumbre del entorno. En redes complejas y a gran escala, los espacios de
estado y acción suelen ser grandes, y RL puede no ser capaz de encontrar la poĺıti-
ca óptima en un tiempo razonable, por lo que se introduce el DL para superar las
deficiencias (Q2).
Tan y Hu [49] estudian la comunicación conjunta, el almacenamiento en caché y
el problema del diseño para optimizar la operatividad y la rentabilidad de las redes
de veh́ıculos (Q1). Diseñan la poĺıtica de asignación de recursos considerando la
movilidad del veh́ıculo y la restricción de la fecha ĺımite de servicio, y desarrollan un
framework de escala de tiempo múltiple con DRL (Q3, Q4). Además, proponen una
3 TRABAJOS RELACIONADOS 14
estimación de la recompensa basada en la movilidad para mitigar la complejidad
generada por el gran espacio de acción (Q7).
La aplicación más recurrente de RL en ciudades inteligentes es el control de
las señales de tráfico. Mannion et al. [30] realizan una revisión experimental de los
métodos de RL aplicados a este problema, muestran su arquitectura de control de
tráfico y discuten algunos desaf́ıos importantes que aún deben abordarse en este
campo. La congestión del tráfico urbano es un problema grave y las mejoras en el
control adaptativo de la señal de tráfico (ATSC) pueden tener un papel fundamental
en el desarrollo futuro de las ciudades inteligentes. Los enfoques de esta revisión no
aplican DL, y su uso supone una mejora evidente en algunos estudios que han ido
apareciendo posteriormente.
Uno de esos casos es el desarrollado por Lin et al. [28], que aplican DL al RL
en este ámbito de control de tráfico urbano (Q1), donde realizan experimentos de
simulación en los que demuestran que su método funciona mejor que los enfoques
tradicionales y puede manejar entornos más complejos con menos recursos (Q7).
Para ello, proponen un modelo que utiliza redes neuronales residuales (ResNet), una
función de recompensa h́ıbrida y el algoritmo PPO. Como desaf́ıo futuro destacan
el uso de otras redes neuronales para mejorar el rendimiento (Q2).
Liang et al. [25] realizan otro estudio representativo de DRL aplicado al control
de señales de tráfico (Q1), basándose en los datos recogidos de diferentes sensores
y redes vehiculares. Proponen un modelo (Q3) en el que representan el complejo
escenario del tráfico de una intersección dividiñéndolo en pequeñas cuadŕıculas y
cuantificándolo en estados (Fig 11. Los cambios de tiempo de un semáforo son las
acciones, que se modelan como un MDP de alta dimensión. La recompensa es la
diferencia de tiempo de espera acumulado entre dos ciclos. Para resolver el modelo, se
emplea una CNN para para asignar los estados a las recompensas y combinan varios
métodos del estado del arte para componer un algoritmo denominado Double Dueling
Deep Q Network (3DQN). Evalúan el modelo con una red de veh́ıculos utilizando
el simulador de movilidad urbana SUMO [22] (Q4, Q5). Según los resultados de las
simulaciones, el método propuesto puede reducir más del 20% el tiempo medio de
espera (Q7), además de superar a otros en velocidad de aprendizaje.
Un problema t́ıpico respecto a la eficiencia y confiabilidad de los servicios de
transporte público es el aglutinamiento de autobuses. Wang y Sun [53] presentan un
framework de DRL multi-agente (Fig. 12) para el control dinámico de retención en
rutas de autobuses (Q1, Q3). Utilizan una función de recompensa basada en avances
y un algoritmo PPO. Destacan unos resultados prometedores al aplicar este sistema
frente a otras estrategias utilizadas en el control coordinativo de flotas de veh́ıculos
de transporte público en operaciones del mundo real (Q4, Q7). Como desaf́ıo futuro
(Q2), proponen ampliar el framework para tener más en cuenta las incertidumbres
en la gestión de la flota, como la aleatoriedad del control de las señales de tráfico, la
diversidad en el comportamiento de conducción y ciertos escenarios extremos (por
ejemplo, aveŕıa del veh́ıculo).
3 TRABAJOS RELACIONADOS 15
Fig. 11: Escenario de control de tráfico en una intersección mediante DRL [25]
Fig. 12: Framework de DRL multi-agente para el control dinámico de autobuses [53]
3 TRABAJOS RELACIONADOS 16
Además de lo comentado anteriormente, un aspecto importante dela movili-
dad urbana inteligente es la seguridad. Los veh́ıculos autónomos (AV) cuentan con
sensores como la cámara, el radar y la comunicación entre veh́ıculos, lo que puede
exponerlos a ciberataques para intentar tomar el control de los mismos. Para garan-
tizar un control seguro de los AVs (Q1), Ferdowsi et al. [12], proponen un algoritmo
que utiliza DRL para maximizar la robustez frente a ataques (Q7). Se desarrolla en
el marco de la teoŕıa de juegos, donde el atacante intenta introducir datos erróneos a
las lecturas del sensor AV para manipular el espaciado seguro óptimo entre veh́ıcu-
los, mientras que el defensor busca minimizar las desviaciones del espaciado para
mitigar el posible efecto (Fig. 13).
Fig. 13: Modelo de seguimiento de coches con ataque cibernético [12]
Otro caso de uso del DRL en seguridad para aplicaciones de smart cities es de-
sarrollado por Shake et al. [44] en su investigación aplicada a sistemas de asistencia
sanitaria (Q1). Introducen DQNs para reducir los ataques de malware y administrar
la información de salud, donde es importante la privacidad y la confiabilidad de los
datos sensibles (Q7). La eficiencia del sistema se evalúa con resultados experimen-
tales utilizando la herramienta de simulación NS2 y comparando los resultados con
otros métodos (Q5).
Las aplicaciones de salud personal son de vital importancia actualmente, ya que
las enfermedades causadas por un estilo de vida poco saludable representan una
de las principales causas de muerte en todo el mundo. Chen et al. [7] proponen un
asesor de salud personal inteligente (SPHA), para un seguimiento y una gúıa de salud
integral (Q1). El SPHA monitoriza los estados fisiológicos y psicológicos del usuario
y evalúa su estado general de salud. Utiliza DRL para aprender continuamente de
los datos históricos y de la actividad del usuario a través de su teléfono móvil (Q7).
La toma de decisiones adaptativa en smart homes también ha tenido grandes
3 TRABAJOS RELACIONADOS 17
avances con el uso de aprendizaje por refuerzo [19]. Recientemente, Brenon et al. [5]
presentaron ARCADES, un sistema de toma de decisiones por comandos de voz en
casas inteligentes sin un contexto expĺıcitamente definido (Q1). Utiliza DRL para
extraer el contexto a partir de una representación gráfica del sistema de automati-
zación del hogar y actualiza continuamente su comportamiento según el del usuario
(Q7). Los componentes gráficos y los recursos utilizados están disponibles on-line
(Q5). El sistema es robusto a los cambios en el entorno (p.e. rotura del sensor), es
escalable y se adapta bien al contexto (Q4).
En todos los trabajos relacionados, observamos que en ninguno se hace una
revisión como la anterior, sistemática y completa para aplicaciones de todos los
dominios de ciudades inteligentes con el uso de DRL. Además, los retos y desaf́ıos
lanzados son principalmente en el manejo de los datos, en lugar de aplicaciones
y oportunidades enfocadas a los usuarios finales. Los que proponen aplicaciones
se centran en un dominio concreto y como máximo se explican dos o tres casos
de uso de ese mismo dominio. Por ello, en la siguiente sección se proponen hasta
catorce potenciales aplicaciones, para diversos dominios de ciudades inteligentes en
las que el DRL puede tener un papel importante. Por último, en el apartado de
desarrollo experimental de esta tesis se aplicará un mismo algoritmo a distintos
casos de uso, validando aśı la arquitectura implementada para diversas aplicaciones.
En algunos casos de estudio que observamos en la literatura solo se muestra un
caso concreto, en otros se afirma que es un sistema escalable pero se desarrolla una
única simulación, o bien desarrollan un framework a más alto nivel de ciudades
inteligentes, no un algoritmo de DRL aplicable de forma directa. Además, se aporta
el framework desarrollado para que puedan probarse los experimentos realizados y
ampliarlos. En conclusión, todos esos elementos son los que definen la contribución
de esta tesis respecto a los trabajos descritos del estado del arte.
4 APLICACIONES Y OPORTUNIDADES 18
4. APLICACIONES Y OPORTUNIDADES
Existen numerosas aplicaciones y servicios que pueden hacer uso del Big Data de
las ciudades inteligentes para obtener beneficios económicos, ambientales y sociales
[2]. Esto genera oportunidades en sectores como educación, sanidad, medio ambiente,
seguridad pública y transporte urbano. También encontramos muchos desaf́ıos en el
diseño, desarrollo y despliegue de dichas aplicaciones, ya que las ciudades inteligentes
son entornos muy dinámicos y en evolución.
Los trabajos relacionados han explorado métodos de DRL en varios dominios,
pero aún existe un gran margen de desarrollo y mejora para nuevas aplicaciones de
ciudades inteligentes. No siempre es posible o adecuado el uso de RL en un problema
concreto, debe cumplir ciertas caracteŕısticas para que sea viable y útil su aplicación:
¿Es un problema de control o toma de decisiones? El RL es útil en sistemas
de control y entornos en los que se toman decisiones de forma dinámica.
¿Puede mejorar recibiendo feedback del entorno? Los agentes aprenden a partir
de recompensas según sus acciones en un contexto de prueba y error.
¿Se puede modelar como un MDP? Esto implica el diseño del espacio de esta-
dos, del espacio de acciones, la función de recompensa, etc.
¿Se puede desarrollar en una simulación? Es importante un entorno simulado
que pueda reflejar correctamente el mundo real, ya que se necesitan muchas
iteraciones antes de que un algoritmo RL funcione.
Otra cuestión importante es la elección del algoritmo de RL. A parte de la versión
estándar de Deep Q-Learning [35], existen diversas variantes como Double DQN
[51], Deep Deterministic Policy Gradient (DDPG) [27], Continuous DQN (CDQN
o NAF) [16], Dueling Network DQN (Dueling DQN) [54] y otros algoritmos como
Deep SARSA [48], Asynchronous Advantage Actor-Critic (A3C) [33] y Proximal
Policy Optimization (PPO) [43].
Estos algoritmos se pueden dividir principalmente en dos grupos: métodos ba-
sados en la poĺıtica (on-policy) y en el valor (Q-value), según la forma de abordar
el problema. En los métodos on-policy se intenta optimizar directamente la poĺıti-
ca, mientras que en los de valor se intenta evaluar el rendimiento futuro esperado
(aprender una función de valor) y deducir la poĺıtica a partir de ah́ı. Otros aspectos
a tener en cuenta es si necesitamos un diseño basado en modelos (model-based o
model-free), si el espacio de acción es cont́ınuo o discreto, o si se puede combinar
con otros tipos de DNNs y métodos.
En las siguientes subsecciones se exploran oportunidades y posibles aplicaciones
de DRL para distintos dominios de ciudades inteligentes, aportando ejemplos de
aplicaciones concretas, discutiendo las mejoras que aportaŕıan dichos métodos y el
rol que el RL puede desempeñar en estas ciudades. En la Fig. 14 se muestra un
4 APLICACIONES Y OPORTUNIDADES 19
esquema de dichas aplicaciones, que se han dividido en tres ámbitos: 1) movilidad
y medio ambiente; 2) economı́a y gobierno; y 3) salud y estilo de vida.
Fig. 14: Aplicaciones y oportunidades de DRL para ciudades inteligentes
4.1. Movilidad y medio ambiente
Los servicios de movilidad urbana son cada vez más importantes debido a la
creciente población y propiedad de veh́ıculos, especialmente en las grandes ciudades.
Para ello, es necesario desarrollar soluciones inteligentes y económicas para que las
personas y los bienes se transporten de forma más eficiente y segura. Además, las
ciudades deben impulsar un uso más inteligente de los recursos, tanto por parte de
empresas y organizaciones públicas como de los propios ciudadanos, para fomentar
el crecimiento sostenible.
En este dominio, el RL ha sido utilizado principalmente en el control de señales
de tráfico y gestión energética, tal y como se ha visto en la sección de trabajos
relacionados. Se ha demostrado que es muy útil en estosproblemas espećıficos, pero
aún existen muchos desaf́ıos y servicios en los que el DRL podŕıa aportar mejoras
respecto a los sistemas actuales. A continuación se proponen algunos casos de uso,
que son potenciales aplicaciones para las ciudades inteligentes: el smart parking, la
reducción de emisiones contaminantes, el control del alumbrado público y mejoras
en el transporte público, veh́ıculos eléctricos, veh́ıculos compartidos y la recogida de
residuos urbanos.
El Smart Parking es unas de las soluciones de ciudades inteligentes que está
teniendo mayor crecimiento en todo el mundo. Cada vez más aeropuertos, universi-
dades, centros comerciales y aparcamientos públicos implementan la tecnoloǵıa en
el parking para automatizar los procesos. Las soluciones actuales incluyen sensores,
información en tiempo real y aplicaciones que permiten a los usuarios comprobar la
4 APLICACIONES Y OPORTUNIDADES 20
disponibilidad de las plazas de aparcamiento. En un futuro, y con la proliferación de
estos sitemas, se podŕıa ir un paso más allá y hacer uso del DRL para organizar el
Smart Parking de forma más eficiente y automática. Por ejemplo, dado un entorno
urbano con una serie de aparcamientos monitorizados, un sistema podŕıa aprender
a recomendar o reservar el mejor aparcamiento dado un punto de salida y de lle-
gada, minimizando mediante refuerzo parámetros como el tiempo transcurrido, las
distancias recorridas o el tráfico generado.
El sistema de transporte público facilita el flujo cont́ınuo, controlado y sostenible
de un grueso de la población que lo utiliza diariamente para llegar a su destino. En
una ciudad inteligente, se promueve el desarrollo del sistema de transporte público y
la mejora de su eficiencia, para que contribuya de manera significativa a la reducción
de la congestión del tráfico y las emisiones. Este caso podŕıa ser una variante del
problema de control de tráfico, en el que el DRL tiene buena efectividad, pero con
importantes variables adicionales. Por ejemplo, una variable a tener en cuenta seŕıa
la concentración de pasajeros, para evitar transportes demasiado llenos o vaćıos y
ajustar la frecuencia. Otro parámetro relacionado es la facilidad de conexiones con
otros transportes o rutas, para asegurar la fluidez en las distintas zonas de la ciudad.
En los últimos años ha habido un crecimiento exponencial de los servicios y apli-
caciones de veh́ıculos compartidos y por demanda. Introduciendo RL a este tipo de
servicios, se podŕıan ofrecer a los usuarios tarifas, recomendaciones y rutas más per-
sonalizadas, además de controlar la distribución de veh́ıculos y pasajeros en un área
determinada. Por ejemplo, el sistema podŕıa aprender los mejores posicionamientos
de los veh́ıculos cierto d́ıa de la semana en una franja horaria concreta y ofrecer
ofertas para rutas fijadas que beneficien el flujo de pasajeros o la tasa de ocupación
de los veh́ıculos.
Los veh́ıculos eléctricos, como bicicletas o patinetes, también han entrado con
fuerza en las ciudades con el fin de moverse de forma sostenible e inteligente. Ya
se pueden encontrar diversas aplicaciones y servicios para hacer uso de este tipo de
veh́ıculos según las necesidades de cada uno. Una aplicación del DRL para este tipo
de veh́ıculos puede ser la optimización de rutas y estaciones de carga eléctrica, con el
fin de que las posiciones de dichas estaciones y las conexiones entre ellas beneficien
lo máximo posible a los usuarios. Esto se conseguiŕıa reforzando una circulación
más rápida y segura, una buena distribución y disponibilidad de veh́ıculos por las
distintas zonas y una relación equilibrada entre la duración de carga, las distancias
en los trayectos y el número de estaciones. Por ejemplo, dada una configuración
inicial, el sistema podŕıa aprender otras configuraciones mejores añadiendo, quitando
o moviendo estaciones y distribuyendo la cantidad de veh́ıculos de cada una.
Otra cuestión relacionada con la movilidad y el medio ambiente es la recogida
de residuos urbanos. Los recorridos para dicho servicio público también se podŕıan
mejorar, aprovechando los datos recogidos tanto de los camiones como de los ba-
rrenderos. Con estos datos se reforzaŕıa una recogida de basuras más rápida y eficaz,
buscando minimizar el tiempo y distancia de ruta y el tráfico generado. Además, el
4 APLICACIONES Y OPORTUNIDADES 21
sistema podŕıa tener en cuenta aspectos como la alta o baja acumulación de basuras
en puntos concretos, para priorizar unas zonas respecto a otras.
El ahorro energético es uno de los pilares de una ciudad inteligente, y en es-
te aspecto el alumbrado urbano tiene un importante peso. Con la infraestructura
adecuada, es posible controlar de forma remota y adaptativa las luces LED del alum-
brado público para encenderlas, apagarlas o ajustar su intensidad. Esto ofrece a las
ciudades la oportunidad de maximizar los beneficios de la iluminación de bajo con-
sumo, al mismo tiempo que se mejora la seguridad de los peatones y veh́ıculos. Un
enfoque que tiene potencial para afrontar este problema de control de alumbrado
es la aplicación de DRL. La intensidad de luz se podŕıa ajustar de forma dinámica
reforzando que se consuma la menor enerǵıa posible mientras se asegura una co-
rrecta visibilidad, teniendo en cuenta aspectos como la hora, el clima o el ı́ndice de
peligrosidad peatonal y en la carretera.
Caso de uso Agentes Parámetros del entorno
Smart Parking Veh́ıculos Tiempo trascurrido
Distancia desde posición inicial
Distancia hasta objetivo
Congestión de tráfico
Transporte público Autobuses
Tranv́ıas
Metro
Tiempo y distancia
Concentración de pasajeros
Conexiones con otros transportes
Congestión de tráfico
Frecuencia y longitud de ruta
Veh́ıculos compartidos Coches Nivel de ocupación
Tránsito de personas
Tipos de usuarios
Distribución de veh́ıculos
Veh́ıculos eléctricos Bicicletas
Patinetes
Coches
Duración de carga
Distancia y tiempo
Conexiones y seguridad
Posición de estaciones
Control de alumbrado Farolas Enerǵıa consumida
Potencia eléctrica
Visibilidad
Peligrosidad
Hora y clima
Recogida de residuos urbanos Camiones Tiempo trascurrido
Distancia recorrida
Nivel de llenado de contenedores
Tab. 4: Aplicaciones y oportunidades propuestas de movilidad y medio ambiente en
ciudades inteligentes
4 APLICACIONES Y OPORTUNIDADES 22
4.2. Econoḿıa y gobierno
Las ciudades inteligentes deben desarrollar estrategias para abordar los trabajos
del futuro que impulsarán a la Industria 4.0 y ayudarán a agilizar y optimizar los
procedimientos mejorando la experiencia para las empresas y entidades públicas.
Esto incluye factores relacionados con la competitividad económica, la innovación,
la seguridad pública, la participación ciudadana, la productividad y la flexibilidad e
integración del mercado laboral.
En este ámbito el uso del RL no es muy común, podemos encontrar alguna
investigación que trata el tema del gobierno inteligente con DRL [21], pero desde el
punto de vista de la gestión de los datos y el análisis predictivo. Por lo tanto, aún
quedan numerosas aplicaciones por explorar en las que el RL puede ser una parte
importante. Se han propuesto diversas aplicaciones y mejoras a servicios que se
centran en el sector económico y de gestión pública y privada: estrategias tuŕısticas,
agricultura inteligente, seguridad pública y gestión de cadenas de suministro.
El turismo es uno de los sectores más importantes de nuestro páıs. Desarrollar
estrategias para mejorar la experiencia de los turistas podŕıa ser un uso interesante
del RL en este ámbito, especialmente por el enorme impacto económico que genera.
Por ejemplo, se podŕıan mejorar ciertas rutas o visitas tuŕısticas teniendo en cuenta
diversos factores como la popularidad, la afluencia según horas o fechas, edad de
los visitantes o las zonas de descanso y restaurantes. Además, este podŕıa ser un
ejemplo claro de los beneficios del refuerzo a partirde feedback, en este caso por
parte de los turistas, que podŕıan valorar los distintos aspectos del viaje y el sistema
aprendeŕıa automáticamente para planificaciones posteriores.
La seguridad ciudadana siempre ha sido una misión primordial en todo gobierno,
por lo que una organización eficiente de las fuerzas y elementos de seguridad es
clave. Especialmente en situaciones de gran despliegue en eventos multitudinarios
como deportes, conciertos, manifestaciones o macrofiestas. El RL podŕıa ser utilizado
para mejorar el control de acceso a dichos eventos y optimizar la seguridad. Esto
se llevaŕıa a cabo utilizando poĺıticas que favorezcan una distribución y despliegue
eficiente de las medidas de seguridad, reforzando estados en los que se minimicen las
aglomeraciones y conflictos y se maximice el flujo de personas. Se podŕıa extrapolar
del control del tráfico, caso muy estudiado como aplicación de DRL.
La agricultura inteligente busca el aumento sostenible de la productividad y
los ingresos agŕıcolas, la adaptación al cambio climático y la reducción del efecto
invernadero. Lo que el RL puede aportar a este sector son mejoras en sostenibilidad
y optimización de recursos y procesos agŕıcolas. Por ejemplo, se podŕıa optimizar
la cantidad de riego diario a cierta plantación midiendo una serie de factores tales
como la humedad, temperatura, precipitaciones o riegos anteriores. Las acciones de
regar mayor o menor cantidad con unas condiciones concretas daŕıa lugar a ciertos
estados de desarrollo de la planta, que se podŕıan reforzar para conseguir un riego
eficiente.
4 APLICACIONES Y OPORTUNIDADES 23
En el ámbito industrial, el DRL se ha utilizado habitualmente en robótica, por
ejemplo para el control de brazos robóticos [15]. Desde una perspectiva de ciudades
inteligentes, el DRL puede usarse llevar el control de las cadenas de suministro, que
abarcan la producción, la gestión de productos en almacenes, proveedores, precios,
abastecimiento y distribución. Este problema ya se ha tratado anteriormente con un
enfoque de RL [47], pero sin el uso de DNNs. Al ser un sistema tan complejo y con
tantos agentes distintos pero interconectados, la introducción de DL podŕıa suponer
una clara ventaja para modelarlo y extraer mayor potencial al uso de RL.
Caso de uso Agentes Parámetros del entorno
Estrategias tuŕısticas Viaje
Zona tuŕıstica
Afluencia
Demanda
Rasgos demográficos
Feedback
Seguridad/acceso en eventos Personal
Accesos
Congestión de accesos
Distribución de asientos
Recursos de seguridad
Agricultura inteligente Riego Crecimiento del cultivo
Humedad
Temperatura
Precipitaciones
Histórico de riegos
Cadenas de suministro Fábrica
Almacén
Camiones
Producción
Almacenamiento
Transporte
Oferta/Demanda
Ingresos
Tab. 5: Aplicaciones y oportunidades propuestas de economı́a y gobierno en ciudades
inteligentes
4.3. Salud y estilo de vida
Una ciudad verdaderamente inteligente utiliza la tecnoloǵıa y la conectividad
para mejorar el d́ıa a d́ıa de sus residentes. Se debe alentar a las comunidades a
estar conectadas a través de la construcción de edificios inteligentes, la innovación
en el sector de la salud y el uso de datos para monitorear y mejorar la calidad de
vida de los ciudadanos.
En el estado del arte, se ha observado que existen al menos un par de aplicaciones
propuestas en el ámbito de la salud y estilo de vida que utilizan DRL: un asistente
de salud personal y un sistema de control por comandos de voz en entornos de
smart homes. Estos sistemas se podŕıan ampliar para una completa monitorización
4 APLICACIONES Y OPORTUNIDADES 24
y personalización de las rutinas en un hogar inteligente. Con RL, se podŕıan controlar
todo tipo de detalles de la vida diaria, desde avisos de ciertas circunstancias o noticias
que pueden interesar al usuario, hasta la recomendación de uso de alimentos según
sus gustos, recetas y fechas de caducidad.
Otro caso de uso de DRL aplicado a casas inteligentes que aparece en los trabajos
relacionados es la detección de grifos abiertos por error para el ahorro de agua.
Esto se puede extender a la detección de cualquier tipo de anomaĺıas en edificios
inteligentes si se posee la infraestructura de sensores adecuada. El sistema podŕıa
detectar situaciones que se dan por errores o descuidos tales como dejar el frigoŕıfico
abierto o con temperatura inadecuada, el fuego de la cocina encendido o el aire
acondicionado puesto. El sistema estaŕıa reforzado con ciertas conductas y rutinas
de los inquilinos y aprendeŕıa a actuar en este tipo de situaciones irregulares, por
ejemplo, apagando el aire acondicionado (o proponerlo/avisarlo) si ha pasado cierto
tiempo encendido y, además, no coincide con los horarios habituales de uso o en los
que el inquilino se encuentra en casa.
Una aplicación centrada en el deporte y la nutrición inteligente también puede
ser una oportunidad viable, de forma similar a la aplicación de salud que utiliza
DRL. Se podŕıan optimizar rutinas de ejercicio a la vez que se complementa con
una nutrición adecuada, todo adaptado a la evolución de cada usuario. Se reforzaŕıa
la recomendación de ciertos tipos de ejercicios o dietas según parámetros como el
peso, la altura, el ı́ndice de grasa corporal, el cansancio o los objetivos individuales,
teniendo gran importancia el feedback de los usuarios.
El RL también podrá ayudar a los maestros de la próxima generación a adaptar
el aprendizaje y asesoramiento para maximizar el éxito de los estudiantes, con una
educación personalizada. Los alumnos podŕıan mejorar el desarrollo de su aprendiza-
je a través de la personalización de sus estudios, reforzando un tipo de actividades
u otras para estimular sus habilidades y su potencial en las distintas áreas. Por
ejemplo, un sistema con DRL podŕıa aprender a recomendar un ejercicio concreto
de cálculo o de lectura, o una actividad enfocada al desarrollo art́ıstico, de investiga-
ción o imaginativo para un alumno concreto. Es decir, ha aprendido que un alumno
con caracteŕısticas y resultados similares tiene un alto potencial de éxito en cierto
ámbito en el que ese tipo de ejercicio le va a ayudar a desarrollarse mejor, tanto en
el aspecto académico como en su futuro profesional.
4 APLICACIONES Y OPORTUNIDADES 25
Caso de uso Agentes Parámetros del en-
torno
Monitorización y personaliza-
ción de rutinas
Aplicación Rutina diaria
Gustos personales
Necesidades
Detección de anomaĺıas en vi-
viendas
Electrodomésticos Tiempo de uso
Horarios
Mediciones
Deporte y alimentación inteli-
gente
Aplicación Ejercicios
Dietas
Objetivos
Mediciones
Educación personalizada y
adaptativa
Aplicación Ejercicios
Perfiles
Objetivos
Resultados
Tab. 6: Aplicaciones y oportunidades propuestas de salud y estilo de vida en ciudades
inteligentes
5 CASO DE ESTUDIO 26
5. CASO DE ESTUDIO
Se han implementado pruebas de concepto de dos de los casos de uso propuestos
en el contexto de la movilidad urbana. El desarrollo incluye análisis, ajuste, apli-
cación y validación de un mismo algoritmo de DRL y la integración de distintas
herramientas en un marco de trabajo común en el que se pueden visualizar, probar
y ampliar los entornos propuestos y los experimentos realizados.
Se han seguido los consejos del art́ıculo Deep Reinforcement Learning that Mat-
ters [17] sobre reproducibilidad y técnicas experimentales adecuadas en el DRL. En
general, el paso más importante es informar de todos los hiperparámetros, detalles
de implementación, configuración experimental y métodos de evaluación, tanto para
los métodos de comparación de referencia como para los nuevos trabajos.
Los apartados que se verán en esta sección son los siguientes:
Herramientas. Presentación de las tecnoloǵıas y libreŕıas utilizadas y la ar-
quitectura del código fuente del proyecto.
Metodoloǵıa. Descripción, contexto y justificación del algoritmo utilizado.
Se explican los métodos de gradiente de poĺıticas, la regiónde confianza y
los PPO. Incluye el método de selección y los valores para el ajuste de los
hiperparámetros.
Desarollo. Dos casos de uso de movilidad urbana. Incluye los detalles de
implementación de los entornos, el ajuste de hiperparámetros del algoritmo,
el entrenamiento del agente, los experimentos realizados y los resultados de
simulación.
• Entorno SmartCab.Desarrollo del caso práctico sobre veh́ıculos autóno-
mos para transporte de pasajeros.
• Entorno WasteNet. Desarrollo del caso práctico sobre optimización de
recogida de residuos urbanos.
El código fuente libre de los experimentos de este trabajo está disponible en un
repositorio público de GitHub para que se puedan reproducir o extender los expe-
rimentos realizados [11]. El código incluye los dos entornos de RL implementados
siguiendo el estándar, la integración de las herramientas utilizadas en una interfaz
común y los notebooks desarrollados para el ajuste de hiperparámetros y entrena-
miento de los algoritmos.
5 CASO DE ESTUDIO 27
5.1. Herramientas
El caso práctico se ha desarrollado en Python 3 utilizando el framework Mesa
[32], para el modelado basado en agentes (ABM); y el framework Ray [39], que
proporciona una API universal para construir aplicaciones distribuidas y un conjunto
de libreŕıas para resolver problemas de ML. Entre ellas se encuentran RLlib [24] para
RL y Tune [26] para el ajuste de hiperparámetros. Además, Ray está integrado con
TensorFlow y OpenAI Gym [6]. Los entrenamientos se han ejecutado en notebooks
de Google Colaboratory [4] (Colab). En la Fig. 15 se muestra un esquema de la
arquitectura de herramientas utilizadas, todas de código abierto.
Fig. 15: Herramientas de Python utilizadas para el desarrollo del caso práctico
Gym. Conjunto de herramientas para desarrollar y comparar algoritmos de
RL. Ofrece una colección de problemas de prueba (entornos) con una inter-
faz compartida que se puede utilizar para desarrollar algoritmos de RL y es
compatible con TensorFlow.
TensorFlow. Plataforma end-to-end para ML, que opera a gran escala y
en entornos heterogéneos. Desarrollada por Google, es la herramienta más
utilizada en el desarrollo e investigación de DL.
Tune. Libeŕıa de Python para la ejecución de experimentos y el ajuste au-
tomático de hiperparámetros a cualquier escala. Admite distintos framework
de ML y permite la visualización de resultados con TensorBoard.
RLlib. Libreŕıa de Python que implementa distintos algoritmos de DRL del
estado del arte. Ofrece tanto una alta escalabilidad como una API unificada
5 CASO DE ESTUDIO 28
para una variedad de aplicaciones. Es compatible de forma nativa con Tensor-
Flow, aunque la mayoŕıa de sus componentes internos son independientes del
framework. Trabaja con distintos tipos de entornos, incluyendo OpenAI Gym,
entornos definidos por el usuario, multiagente y por lotes.
Mesa. Framework ABM para Python. Permite a los usuarios crear mode-
los basados en agentes usando componentes integrados (como grids espaciales
y planificadores de agentes) o implementaciones personalizadas; visualizarlos
usando una interfaz basada en navegador; y analizar sus resultados utilizando
las herramientas de análisis de datos de Python. Su objetivo es ser la alterna-
tiva basada en Python a NetLogo, Repast o MASON.
Colab. Entorno de Jupyter Notebooks preconfigurado y que se ejecuta en la
nube. Tiene limitaciones de uso, pero proporciona una GPU Tesla T4 gratuita,
que es especialmente útil para aumentar el rendimiento al entrenar modelos
de DL.
5.2. Metodoloǵıa
Se ha utilizado un algoritmo PPO como método de RL y la optimización de sus
hiperparámetros se ha llevado a cabo mediante un método de entrenamiento basado
en población (PBT) [18].
Los algoritmos PPO son una familia de métodos on-policy para RL propuesta
por OpenAI [43] (Schulman et al.), que alternan entre el muestreo de datos a través
de la interacción con el entorno, y la optimización de una función objetivo utilizando
el descenso de gradiente estocástico (SGD). Según describen los autores, los métodos
PPO tienen un rendimiento similar o mejor que otros enfoques del estado del arte,
siendo mucho más sencillos de implementar y ajustar. Por este motivo, PPO se ha
convertido en el algoritmo de RL por defecto en OpenAI.
A diferencia de los enfoques populares de Q-Learning como DQN, que pueden
aprender de los datos almacenados offline, PPO aprende online, y esto significa que
no usa una memoria Replay para almacenar experiencias pasadas, sino que aprende
directamente de lo que su agente encuentre en el entorno y una vez que se haya usado
un lote de experiencia para hacer una actualización de gradiente, la experiencia se
descarta y la poĺıtica avanza.
En el aprendizaje supervisado, se puede implementar fácilmente la función de
coste, ejecutar el descenso de gradiente en ella y obtener buenos resultados con un
ajuste de hiperparámetros relativamente pequeño. En RL no es tan obvio, uno de los
problemas es que los datos de entrenamiento que se generan dependen en śı mismos
de la poĺıtica actual porque el agente genera sus propios datos de entrenamiento al
interactuar con el entorno, en lugar de depender de un conjunto de datos estáticos
como en el aprendizaje supervisado. Esto significa que las distribuciones de datos
de las observaciones y recompensas cambian constantemente a medida que el agente
5 CASO DE ESTUDIO 29
aprende, lo que implica una importante inestabilidad en todo el proceso de entre-
namiento. Además, el RL también se caracteriza por una sensibilidad muy alta en
el ajuste de hiperparámetros y la inicialización, y a veces requiere un gran esfuerzo
para obtener buenos resultados.
5.2.1. Gradiente de poĺıticas
La función objetivo (pérdida) de gradiente de poĺıtica se define como la esperanza
sobre el logaritmo de las acciones de poĺıtica multiplicado por una estimación de la
función de ventaja:
LPG(θ) = Êt[logπθ(at|st)Ât]
θ es el parámetro de poĺıtica.
Êt denota la esperanza emṕırica a lo largo de los intervalos de tiempo.
πθ es la poĺıtica, una red neuronal que toma los estados observados del entorno
como entrada y sugiere acciones a tomar como salida.
Ât es la funcion de ventaja estimada en el momento t.
La ventaja estimada se calcula restando la suma descontada de recompensas del
episodio y la estimación de ese valor dado el estado actual. El objetivo es calcular
si la acción escogida por el agente fue mejor o peor de lo esperado. Si es positiva,
aumentará la posibilidad de escoger en el futuro dichas acciones para el mismo estado
y si es negativa se reducirá.
5.2.2. Región de confianza
Uno de los problemas de estos métodos, es que si simplemente se sigue ejecutando
el descenso de gradiente en un lote de experiencia recopilada, lo que sucederá es que
irá actualizando los parámetros de su red cada vez más lejos del rango en el que
se recopilaron estos datos. En ese caso, la función de ventaja (que ya es de por śı
una estimación con ruido) y por lo tanto su poĺıtica, acabarán siendo erróneas. El
enfoque para resolver este problema es asegurarse de que si está actualizando la
poĺıtica, nunca se aleje demasiado de la poĺıtica anterior.
Esta idea se introdujo en un documento llamado Trust Region Policy Optimiza-
tion [41] (TRPO), que es la base a partir de la cual se elaboraron los métodos PPO.
TRPO añade la restricción KL (Kullback–Leibler), que se asegura de que la poĺıtica
no se aleja demasiado de la denominada “región de confianza”.
5 CASO DE ESTUDIO 30
5.2.3. PPO
La restricción KL agrega una complejidad adicional al proceso de optimización
y, a veces, puede conducir a un comportamiento indeseado de entrenamiento. PPO
encuentra una forma de mantener las nuevas poĺıticas cercanas a las antiguas con
una implementación mucho más sencilla y que emṕıricamente funcionan al menos
igual de bien que los TRPO. Existen dos variantes de este algoritmo, PPO-Penalty y
PPO-Clip, siendo estaúltima la que se usa principalmente por su mejor rendimiento.
PPO-Clip no tiene una restricción KL en el objetivo, sino que se basa en un
clipping o recorte especializado en la función objetivo para eliminar los incentivos
que hacen que la nueva poĺıtica se aleje de la antigua:
LCLIP (θ) = Êt[min(rt(θ)Ât, clip(rt(θ), 1− ε, 1 + ε)Ât)]
θ, Êt y Ât como se definen en el gradiente de poĺıticas básico.
rt es el cociente de la probabilidad bajo las poĺıticas nueva y antigua, respec-
tivamente.
ε es un hiperparámetro, normalmente 0,1 o 0,2.
La estimación de la ventaja puede ser tanto positiva como negativa, lo que cambia
el efecto del operador principal, como se muestra en la Fig. 16. En el lado izquierdo,
se puede observar cómo la función de pérdida se aplana cuando r aumenta dema-
siado. Es decir, cuando la acción es mucho más probable con la poĺıtica actual que
con la poĺıtica anterior, se limita el efecto de la actualización del gradiente. En el
lado derecho, donde la acción teńıa un valor negativo estimado, el objetivo se apla-
na cuando r se acerca a cero. Esto corresponde a acciones que son mucho menos
probables que en la poĺıtica anterior y tendrá el mismo efecto de no exagerar una
actualización similar, que podŕıa reducir estas probabilidades de acción a cero.
Fig. 16: Ventajas positivas y negativas en la función objetivo de PPO-Clip [43]
5 CASO DE ESTUDIO 31
5.2.4. PBT
La técnica escogida para la optimización de hiperparámetros es un h́ıbrido de
los dos métodos más utilizados: la búsqueda aleatoria y el ajuste manual. En la
búsqueda aleatoria, una población de redes neuronales se entrena de forma inde-
pendiente en paralelo y al final del entrenamiento se selecciona el modelo de mayor
rendimiento. Normalmente, esto significa que solamente una pequeña fracción de
la población será entrenada con buenos hiperparámetros, desperdiciando recursos.
El ajuste manual puede dar lugar a un mejor rendimiento, el inconveniente es que
se necesita mucho tiempo para encontrar la configuración perfecta. Y, aunque hay
formas de automatizar este proceso, requiere muchas ejecuciones secuenciales de
entrenamiento para encontrar los mejores hiperparámetros.
Inspirado en los algoritmos genéticos, el método PBT comienza entrenando
múltiples redes neuronales en paralelo con hiperparámetros aleatorios, utilizando la
información del resto de la población para refinarlos y asignar recursos a los modelos
más prometedores. El proceso de explotación y exploración se realiza periódicamen-
te, asegurando que toda la población tenga un buen nivel de rendimiento de base
y también que se exploren constantemente nuevos hiperparámetros. Esto significa
que puede explotar rápidamente los buenos hiperparámetros, puede dedicar más
tiempo de entrenamiento a los modelos prometedores y, sobre todo, puede adaptar
los valores de los hiperparámetros a lo largo del entrenamiento, lo que conduce al
aprendizaje de las mejores configuraciones.
Fig. 17: Optimización de hiperparámetros con PBT en comparación con otros méto-
dos tradicionales [18]
5 CASO DE ESTUDIO 32
5.2.5. Hiperparámetros
En la Tab. 7 se describen los hiperparámetros relevantes del algoritmo PPO y que
han sido ajustados mediante la optimización PBT, con el valor por defecto que se le
asigna en la libreŕıa utilizada. La configuración de ajuste escogida se muestra en la
Tab. 8, con el valor inicial y el rango de mutaciones. El modelo de red neuronal por
defecto es una DNN completamente conectada formada por capas densas con 256
neuronas ocultas. Se ha fijado la misma semilla (123) para todos los entrenamientos.
Hiperparámetro Por defecto Descripción
clip param 0,3 Parámetro Clip del PPO
lambda 1,0 Parámetro GAE [42]
lr 5e-5 Tasa de aprendizaje
num sgd iter 30 Nº de iteraciones del SGD
sgd minibatch size 128 Tam. mini-lote en cada época
train batch size 4000 Tam. de cada época del SGD
Tab. 7: Descripción de hiperparámetros para ajuste del algoritmo PPO
Hiperparámetro Valor inicial Mutaciones
clip param 0,3 0,1-0,5
lambda 0,9 0,7-1,0
lr 5e-5 1e-3-1e-5
num sgd iter 10, 20, 30 10-30
sgd minibatch size 128, 512, 2048 128-16384
train batch size 10000, 20000, 40000 2000-160000
Tab. 8: Configuración de hiperparámetros para ajuste del algoritmo PPO
5.3. Entorno SmartCab
5.3.1. Definición
El primer entorno desarrollado está basado en el de Taxi-v3 [10] de OpenAI
Gym. Se trata de un escenario modelado como un grid 2D en el que hay distribuidas
distintas localizaciones y un veh́ıculo autónomo que se mueve en las direcciones
cardinales y cuyo objetivo es recoger un pasajero de una localización y dejarlo en
otra. Se ha añadido complejidad al entorno original, ampliando el grid y añadiendo
restricciones de movimiento del veh́ıculo sobre el mismo. A continuación se describen
las caracteŕısticas y la asignación de atributos que se han definido para el entorno.
Espacio de observación.
Posición del veh́ıculo: Tupla, coordenadas en el grid (0-7, 0-7)
5 CASO DE ESTUDIO 33
Posición del pasajero: Discreto, ı́ndice de array de localizaciones, +1 dentro
del veh́ıculo (0-4)
Posición del destino: Discreto, ı́ndice de array de localizaciones (0-3)
Espacio de acción.
Sur: 0
Norte: 1
Este: 2
Oeste: 3
Recoger pasajero: 4
Dejar pasajero: 5
Recompensas.
Movimiento: -1
Movimiento erróneo: -3
Acción correcta: +20
Acción incorrecta: -10
Estado inicial.
Posición del veh́ıculo: Fija, en la estación
Posición del pasajero: Aleatoria, de las 4 localizaciones
Posición del destino: Aleatoria, de las 4 localizaciones distinta al origen
Final del episodio.
El veh́ıculo ha recogido y dejado al pasajero correctamente
Ĺımite de 50 pasos
En este primer entorno, se le proporcionan al agente (taxi autónomo) el abanico
de las posibles acciones a puede realizar, que incluyen el avance de una casilla en el
mapa (Norte, Sur, Este, Oeste), la acción de recoger a un pasajero que tenga una
casilla de distancia alrededor de su posición, y la de dejarlo con la misma condición.
Aunque en este mapa simulado es evidente que la navegación de un punto a otro
es un problema de optimización de ruta muy sencillo, la idea es dejar total libertad
al veh́ıculo para que aprenda a desenvolverse correctamente en el entorno partiendo
desde cero. Con esto se pretende simular de forma simplificada un AV, cuyo rango
de acciones y estados seŕıa mucho más complejo (velocidad, giro, imágenes de las
cámaras, etc.). En la Fig. 18 se muestra un esquema de la proceso de DRL aplicado
al entorno descrito.
5 CASO DE ESTUDIO 34
Fig. 18: Esquema de DRL aplicado al entorno de SmartCab
5.3.2. Entrenamiento
La optimización de hiperparámetros se ha realizado mediante la ejecución 6
muestras del algoritmo PPO que van iterando y variando sus parámetros mediante el
entrenamiento PBT, con la configuración mostrada en el apartado 5.3. La condición
de parada se cumple al alcanzar 1 millón de timesteps (una acción se ejecuta en un
instante de tiempo). En la Fig. 19 se observan los resultados del entrenamiento de
cada muestra, con la progresión de sus recompensas medias por episodio a lo largo
del tiempo.
Fig. 19: Progresión de la recompensa media de 6 muestras de entrenamiento de PPO
en el entorno SmartCab para el ajuste de hiperparámetros mediante PBT.
5 CASO DE ESTUDIO 35
Al finalizar la ejecución, obtenemos la mejor configuración de hiperparámetros
resultante para el algoritmo PPO aplicado al entorno SmartCab. Con esta con-
figuración se realiza el entrenamiento final del modelo hasta su convergencia por
recompensa media (Fig. 20):
clip param: 0,2304
lambda: 0,9495512134017048
lr: 0,0005
num sgd iter: 30
sgd minibatch size: 8336
train batch size: 16672
Fig. 20: Evolución de la recompensa mı́nima, media y máxima de los episodios a lo
largo de las iteraciones del entrenamiento en el entorno SmartCab
5.3.3. Experimentos y resultados
El entorno de simulación desarrollado posibilita