Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
El Empleo jugado al Póker Por Cade Metz. Por al menos 3 semanas, Dong Kim se sentó en el casino en Pittsburgh y jugó póker contra una máquina. Pero Kim no era como cualquier jugador de póker. Ésta no era sólo una máquina. Y este no era sólo un juego de póker. Kim, 28, está entre los mejores jugadores del mundo. La máquina fue construida por dos investigadores de ciencias de computación en Carnegie Mellon, es un sistema de inteligencia artificial que funciona en una supercomputadora de Pittsburgh. Y por 20 días seguidos, jugaron Texas Hold ‘Em sin límites, una forma especialmente compleja de póker, en la cual las estrategias de de apuesta se desarrollan a lo largo de decenas de manos. Aproximadamente a mediados de la competencia, que terminó esta semana, Kim empezó a sentirse como si Libratus pudiera ver sus cartas. "No estoy acusando a la máquina de hacer trampa", dijo. "Fue así de buena." Tan buena, de hecho, que le ganó a Kim y a tres más de los mejores jugadores humanos del mundo - la primera vez para una inteligencia artificial. Durante la competición los creadores de Libratus eran tímidos acerca de cómo funcionaba el sistema- cómo logró ser tan exitoso, cómo imitó la intuición humana de una manera que ninguna otra máquina jamás pudo. Pero a juzgar por el resultado, esta AI alcanzó tal desenlace porque no era apenas una AI. Libratus se basó en tres sistemas diferentes que trabajaron juntos, un recordatorio de que la IA moderna no es impulsada por una tecnología sino por muchas. Las redes neurales profundas obtienen la mayor parte de la atención en estos días, y por una buena razón: Pueden hacer de todo, desde el reconocimiento de imágenes hasta traducir, para buscar en algunas de las compañías de tecnología más grandes del mundo. Pero el éxito de las redes neuronales también ha impulsado una nueva vida a tantas otras técnicas de IA que ayudan a las máquinas a imitar e incluso superar los talentos humanos. Libratus, por ejemplo, no usaba redes neuronales. Principalmente, se basó en una forma de IA conocida como aprendizaje por refuerzo, un método de ensayo y error extremo. En esencia, jugaba juego tras partido contra sí mismo. El laboratorio DeepMind de Google utilizó el aprendizaje de refuerzo en la construcción de AlphaGo, el sistema que rompió el antiguo juego de Go diez años antes de lo previsto, pero hay una diferencia clave entre los dos sistemas. AlphaGo aprendió el juego analizando 30 millones de movimientos Go de jugadores humanos, antes de refinar sus habilidades jugando contra sí mismo. Por el contrario, Libratus aprendió desde cero. A través de un algoritmo llamado minimización del arrepentimiento contrafactual, comenzó jugando al azar, y finalmente, después de varios meses de entrenamiento y trillones de manos de póquer, alcanzó también un nivel en el que no podía sólo desafiar a los mejores humanos sino que podía jugar de maneras que los humanos no podían -jugando una gama mucho más amplia de las apuestas y la asignación al azar de estas apuestas, razón por la cual los rivales tienen más problemas para adivinar qué cartas tiene. "Le damos a la IA una descripción del juego. No le decimos cómo jugar ", dice Noam Brown, estudiante de UCM que construyó el sistema junto a su profesor, Tuomas Sandholm. "Desarrolla una estrategia completamente independiente del juego humano, y puede ser muy diferente de la manera en la que los humanos juegan el juego". Pero eso fue sólo la primera etapa. Durante los juegos en Pittsburgh, un segundo sistema analizaría el estado del juego y enfocaría la atención del primero. Con la ayuda del segundo, un "solucionador del juego final", detallado en un estudio de investigación publicado por Sandholm y Brown el lunes, el primer sistema no tuvo que pasar por todos los posibles escenarios que había explorado en el pasado. Podría correr a través de sólo algunos de ellos. Libratus no aprendía antes del partido. Aprendía mientras jugaba. Estos dos sistemas por sí solos habrían sido efectivos. Pero Kim y los otros jugadores todavía podían encontrar patrones de juego de la máquina y explotarlos. Es por eso que Brown y Sandholm construyeron un tercer sistema. Cada noche, Brown ejecutaba un algoritmo que podía identificar esos patrones y eliminarlos. "Podía computar esto durante la noche y tener todo en su lugar al día siguiente", dice. El Empleo jugado al Póker
Compartir