Algoritmos de aprendizaje por refuerzo Q-learning, SARSA y más

Inteligencia Artificial Aplicada

•

Artes

0

flor_gime_93

26/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Inteligencia Artificial Aplicada

1453 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Algoritmos de aprendizaje por refuerzo: Q-learning, SARSA y más
Los algoritmos de aprendizaje por refuerzo son fundamentales en la inteligencia artificial y se utilizan para que los agentes aprendan a tomar decisiones óptimas en entornos inciertos y cambiantes. Estos algoritmos permiten que los agentes aprendan a través de la interacción con el entorno y la retroalimentación en forma de recompensas o penalizaciones. En esta explicación, veremos dos de los algoritmos más populares de aprendizaje por refuerzo: Q-learning y SARSA, y también mencionaremos otros algoritmos importantes en el campo.
1. Q-learning:
Q-learning es un algoritmo de aprendizaje de valor de acción que se utiliza para aprender la política óptima en un entorno de aprendizaje por refuerzo. El objetivo de Q-learning es encontrar la función Q (la función de valor de acción) que asigna un valor a cada par estado-acción, representando cuán bueno es tomar esa acción en un estado dado.
Algoritmo Q-learning:
Inicializar la tabla Q con ceros para todas las combinaciones de estados y acciones.
Elegir una acción y realizarla en el entorno.
Observar la recompensa y el nuevo estado resultante de la acción.
Actualizar la función Q para el estado y la acción actuales utilizando la siguiente fórmula:
Q(s, a) = Q(s, a) + α * [R + γ * max(Q(s', a')) - Q(s, a)]
Donde:
Q(s, a) es el valor actual de la función Q para el estado s y la acción a.
α es la tasa de aprendizaje que controla cuánto se actualiza el valor de Q en cada paso.
R es la recompensa obtenida por tomar la acción a en el estado s.
γ es el factor de descuento que pondera la importancia de las recompensas futuras.
max(Q(s', a')) es el valor máximo de Q para el siguiente estado s' y todas las acciones posibles a'.
Ejemplo de Q-learning:
Supongamos que tenemos un agente que juega un juego en un tablero de 3x3 y el objetivo es llegar al estado final (esquina inferior derecha) evitando los estados prohibidos (esquina superior izquierda). El agente puede moverse hacia arriba, abajo, izquierda o derecha. La función de recompensa es +1 para llegar al estado final y 0 en todos los demás estados.
La tabla Q se inicializa con ceros. El agente realiza movimientos aleatorios al principio y actualiza la tabla Q después de cada movimiento utilizando la fórmula de Q-learning. A medida que el agente sigue explorando el tablero, aprende gradualmente la política óptima para llegar al estado final mientras evita los estados prohibidos.
2. SARSA:
SARSA es otro algoritmo de aprendizaje de valor de acción que es similar a Q-learning, pero en lugar de actualizar la función Q utilizando el valor máximo de Q para el siguiente estado (max(Q(s', a'))), SARSA actualiza la función Q utilizando la acción seleccionada para el siguiente estado.
Algoritmo SARSA:
Inicializar la tabla Q con ceros para todas las combinaciones de estados y acciones.
Elegir una acción y realizarla en el entorno.
Observar la recompensa y el nuevo estado resultante de la acción.
Elegir una nueva acción a' para el nuevo estado s' utilizando la política actual (por ejemplo, ε-greedy).
Actualizar la función Q para el estado y la acción actuales utilizando la siguiente fórmula:
Q(s, a) = Q(s, a) + α * [R + γ * Q(s', a') - Q(s, a)]
Ejemplo de SARSA:
Utilizando el mismo ejemplo del juego en el tablero de 3x3, el agente utiliza SARSA para aprender la política óptima para llegar al estado final y evitar los estados prohibidos. A diferencia de Q-learning, SARSA toma en cuenta la acción real que se toma en el siguiente estado al actualizar la función Q.
3. Otros algoritmos de aprendizaje por refuerzo:
Además de Q-learning y SARSA, existen otros algoritmos importantes de aprendizaje por refuerzo:
Algoritmo de diferencias temporales (Temporal Difference - TD): TD es una categoría de algoritmos de aprendizaje por refuerzo que utilizan la diferencia temporal entre dos estimaciones de valor para actualizar la función Q.
Aprendizaje por refuerzo profundo (Deep Reinforcement Learning - DRL): DRL combina el aprendizaje por refuerzo con redes neuronales profundas para aprender políticas complejas en entornos de alta dimensionalidad, como juegos de video o control de robots.
Monte Carlo (MC): MC es un método de aprendizaje por refuerzo que utiliza promedios de muestras de episodios completos para estimar la función de valor.
Política de gradiente (Policy Gradient): Este enfoque utiliza técnicas de gradiente para ajustar directamente la política del agente para maximizar la recompensa esperada.
Conclusiones:
Los algoritmos de aprendizaje por refuerzo, como Q-learning, SARSA y otros mencionados, son fundamentales para permitir que los agentes aprendan a tomar decisiones óptimas en entornos inciertos y cambiantes. Estos algoritmos son utilizados en diversas aplicaciones, como juegos, robótica, administración de recursos y más. El aprendizaje por refuerzo es un área emocionante y en constante evolución en el campo de la inteligencia artificial, y se espera que sigan surgiendo nuevos avances y aplicaciones en el futuro. Su capacidad para aprender a través de la interacción con el entorno y mejorar su rendimiento a lo largo del tiempo los convierte en herramientas poderosas para el desarrollo de sistemas inteligentes y autónomos.