La inteligencia artificial se está volviendo cada vez más inteligente y más parecida a la humana.

Créditos de la imagen: DeepMind

Muchas cosas han cambiado en el ajedrez moderno en comparación con el pasado, pero el cambio más importante es la hegemonía de las computadoras. Tomemos como ejemplo a Magnus Carlsen, quien, durante la última década, ha sido el campeón mundial de ajedrez indiscutible; realmente no puede afirmar que es el mejor jugador de ajedrez, solo el mejor jugador humano .

Los algoritmos de ajedrez han superado durante mucho tiempo la capacidad humana para jugar, por una razón muy simple: pueden memorizar y calcular tareas simples mucho mejor que nosotros. Pero cuando las IA comenzaron a entrar en escena, los algoritmos de ajedrez también se enfrentaron a una revolución.

Tradicionalmente, los algoritmos de ajedrez se entrenaban de una manera muy sencilla: se les enseñaban las reglas del juego, se alimentaba una enorme base de datos de partidas, se les enseñaba a calcular y listo. Pero AlphaZero de Google, por ejemplo, adopta un enfoque muy diferente. AlphaZero se ha convertido, posiblemente, en la mejor entidad de ajedrez del mundo sin estudiar un solo juego humano. En cambio, solo se le enseñaron las reglas del juego y se le permitió jugar contra sí mismo una y otra vez. Curiosamente, esto no solo le permitió lograr una destreza notable, sino también desarrollar un estilo propio. A diferencia de los algoritmos tradicionales que juegan juegos de tipo muy concreto y molido, AlphaZero tiende a jugar de una manera muy conceptual y creativa (aunque la palabra creativo seguramente molestará a algunos lectores). Por ejemplo, AlphaZero a menudo sacrificaría una pieza sin una recompensa inmediata a la vista; en sí mismo no necesariamente calcula todos los resultados. En lugar de jugar movimientos que puede calcular completamente para ser mejores, que es lo que hacen la mayoría de los algoritmos, AlphaZero juega movimientos que parecen mejores.

Es una forma sorprendentemente humana de abordar el juego, aunque muchos de los movimientos de AlphaZeros parecen claramente inhumanos .

Ahora, los investigadores de Google han llevado las cosas al siguiente nivel con MuZero.

A diferencia de AlphaZero, a MuZero ni siquiera se le dijeron las reglas del ajedrez. No se le permitió hacer ningún movimiento ilegal, pero se le permitió reflexionar sobre ellos. Esto permite que el algoritmo piense de una manera más humana, considerando amenazas y posibilidades, incluso cuando pueden no ser aparentes o posibles en un momento dado. Por ejemplo, la amenaza de perder una pieza expuesta siempre puede estar presente en el fondo de la mente de un jugador humano, aunque no esté amenazada en este momento.

Los investigadores dicen que esto también le permite a MuZero desarrollar una intuición interna con respecto a las reglas del juego.

La evaluación Elo de MuZero a lo largo del entrenamiento en ajedrez, shogi, Go y Atari. Crédito de la imagen: DeepMind

Esto llevó a actuaciones notablemente buenas. Aunque los detalles que presentaron los investigadores son escasos, afirman que MuZero logró el mismo rendimiento que AlphaZero. Pero se pone aún mejor.

Los investigadores no solo entrenaron el motor en ajedrez, también lo entrenaron en go, shogi y 57 juegos de Atari comúnmente utilizados en este tipo de estudio.

Los resultados más impresionantes provinieron de Go, un juego que es inconmensurablemente más complejo que el ajedrez. MuZero superó ligeramente el rendimiento de AlphaZero a pesar de usar menos cómputo general, lo que parece indicar que MuZero tiene una comprensión más profunda del juego y las posiciones que estaba jugando. Se informaron actuaciones similares en los juegos de Atari, donde MuZero superó a los motores de última generación en 42 de 57 juegos.

Por supuesto, hay mucho más en esto que solo ajedrez, Go o PacMan. Hay lecciones muy concretas que se pueden aplicar en inteligencia artificial en un entorno muy práctico.

Muchos de los avances en inteligencia artificial se han basado en una planificación de alto rendimiento, escribieron los investigadores. En este documento hemos introducido un método que combina los beneficios de ambos enfoques. Nuestro algoritmo, MuZero, ha igualado el rendimiento sobrehumano de los algoritmos de planificación de alto rendimiento en sus dominios preferidos, los juegos de mesa lógicamente complejos, como el ajedrez y el Go, y ha superado los algoritmos de [aprendizaje por refuerzo] sin modelos de última generación en sus dominios preferidos. dominios juegos de Atari visualmente complejos.

El estudio se puede leer en una preimpresión en ArXiv.

"