Logo Studenta

1 4 Empleo jugado al Poker - Metz

¡Estudia con miles de materiales!

Vista previa del material en texto

El Empleo jugado al Póker 
Por Cade Metz. 
 
Por al menos 3 semanas, Dong Kim se sentó en el casino en Pittsburgh y 
jugó póker contra una máquina. Pero Kim no era como cualquier jugador de póker. 
Ésta no era sólo una máquina. Y este no era sólo un juego de póker. Kim, 28, está 
entre los mejores jugadores del mundo. 
La máquina fue construida por dos investigadores de ciencias de computación 
en Carnegie Mellon, es un sistema de inteligencia artificial que funciona en una 
supercomputadora de Pittsburgh. Y por 20 días seguidos, jugaron Texas Hold ‘Em 
sin límites, una forma especialmente compleja de póker, en la cual las estrategias de 
de apuesta se desarrollan a lo largo de decenas de manos. 
Aproximadamente a mediados de la competencia, que terminó esta semana, 
Kim empezó a sentirse como si Libratus pudiera ver sus cartas. "No estoy acusando 
a la máquina de hacer trampa", dijo. "Fue así de buena." Tan buena, de hecho, que 
le ganó a Kim y a tres más de los mejores jugadores humanos del mundo - la 
primera vez para una inteligencia artificial. 
Durante la competición los creadores de Libratus eran tímidos acerca de 
cómo funcionaba el sistema- cómo logró ser tan exitoso, cómo imitó la intuición 
humana de una manera que ninguna otra máquina jamás pudo. Pero a juzgar por el 
resultado, esta AI alcanzó tal desenlace porque no era apenas una AI. 
Libratus se basó en tres sistemas diferentes que trabajaron juntos, un 
recordatorio de que la IA moderna no es impulsada por una tecnología sino por 
muchas. 
Las redes neurales profundas obtienen la mayor parte de la atención en estos 
días, y por una buena razón: Pueden hacer de todo, desde el reconocimiento de 
imágenes hasta traducir, para buscar en algunas de las compañías de tecnología 
más grandes del mundo. 
Pero el éxito de las redes neuronales también ha impulsado una nueva vida a 
tantas otras técnicas de IA que ayudan a las máquinas a imitar e incluso superar los 
talentos humanos. 
Libratus, por ejemplo, no usaba redes neuronales. Principalmente, se basó en 
una forma de IA conocida como aprendizaje por refuerzo, un método de ensayo y 
error extremo. En esencia, jugaba juego tras partido contra sí mismo. El laboratorio 
DeepMind de Google utilizó el aprendizaje de refuerzo en la construcción de 
AlphaGo, el sistema que rompió el antiguo juego de Go diez años antes de lo 
previsto, pero hay una diferencia clave entre los dos sistemas. AlphaGo aprendió el 
juego analizando 30 millones de movimientos Go de jugadores humanos, antes de 
refinar sus habilidades jugando contra sí mismo. Por el contrario, Libratus aprendió 
desde cero. 
A través de un algoritmo llamado minimización del arrepentimiento 
contrafactual, comenzó jugando al azar, y finalmente, después de varios meses de 
entrenamiento y trillones de manos de póquer, alcanzó también un nivel en el que no 
podía sólo desafiar a los mejores humanos sino que podía jugar de maneras que los 
humanos no podían -jugando una gama mucho más amplia de las apuestas y la 
asignación al azar de estas apuestas, razón por la cual los rivales tienen más 
problemas para adivinar qué cartas tiene. "Le damos a la IA una descripción del 
juego. No le decimos cómo jugar ", dice Noam Brown, estudiante de UCM que 
construyó el sistema junto a su profesor, Tuomas Sandholm. "Desarrolla una 
estrategia completamente independiente del juego humano, y puede ser muy 
diferente de la manera en la que los humanos juegan el juego". 
Pero eso fue sólo la primera etapa. Durante los juegos en Pittsburgh, un 
segundo sistema analizaría el estado del juego y enfocaría la atención del primero. 
Con la ayuda del segundo, un "solucionador del juego final", detallado en un estudio 
de investigación publicado por Sandholm y Brown el lunes, el primer sistema no tuvo 
que pasar por todos los posibles escenarios que había explorado en el pasado. 
Podría correr a través de sólo algunos de ellos. Libratus no aprendía antes del 
partido. Aprendía mientras jugaba. 
Estos dos sistemas por sí solos habrían sido efectivos. Pero Kim y los otros 
jugadores todavía podían encontrar patrones de juego de la máquina y explotarlos. 
Es por eso que Brown y Sandholm construyeron un tercer sistema. Cada noche, 
Brown ejecutaba un algoritmo que podía identificar esos patrones y eliminarlos. 
"Podía computar esto durante la noche y tener todo en su lugar al día siguiente", 
dice. 
	El Empleo jugado al Póker

Otros materiales