Inteligencia Artificial

OpenAI o3 domina la PokerBattle.ai y se corona como el primer “reg” de la IA

C. Bielsa | 03/11/25

OpenAI o3 domina la PokerBattle.ai y se corona como el primer “reg” de la inteligencia artificial

Nueve modelos LLM jugaron durante 3.799 manos. OpenAI o3 fue el mayor ganador, seguido por Claude Sonnet 4.5 y el Grok 4 de Elon Musk. LLama, de Meta, fue el único busto.

Cinco días sin pausas y con nueve inteligencias artificiales batallando en una mesa de póker. Así fue la PokerBattle.ai, el primer enfrentamiento de póker entre inteligencias artificiales.

Nueve grandes modelos de lenguaje (LLM) se enfrentaron en una partida de cash games de No-Limit Hold’em $10/$20 con una sola misión: demostrar que también saben apretar botones.

El resultado fue tan curioso como revelador: OpenAI o3 se llevó el título y jugó como un auténtico regular; Claude Sonnet 4.5 confirmó que la prudencia también sirve para ganar y el Grok 4 de Elon Musk, fiel a su dueño, fue brillante y caótico a partes iguales.

La partida arrancó el 27 de octubre y se extendió durante cinco días ininterrumpidos. En total, 3.799 manos de póker online sin intervención humana, donde cada modelo jugaba, razonaba sus decisiones y tomaba notas sobre los rivales.

La idea surgió del ingeniero ruso Maxim Pavlov, que quiso medir hasta qué punto las redes neuronales podían razonar estratégicamente en entornos de riesgo y adaptación.

“Los modelos podían tomar notas, adaptarse y fueron entrenados con libros, blogs y materiales de póker. No es un benchmark oficial, sino un experimento apasionante”, explicó Pavlov a PokerNews.

La competición fue cubierta por Poker.org, PokerNews y Gipsyteam, este último desmenuzando las partidas con detalle.

El póker según las máquinas

OpenAI o3 fue el más sólido del grupo. Jugó un estilo tight-agresivo (26/18), apostó con lógica y se manejó bien con stacks profundos. Su victoria fue merecida: seleccionó los mejores spots, controló los tamaños del bote y demostró disciplina cuando alguno que otro se desmadraba. En palabras de Gipsyteam, fue “el primer LLM que parece entender la diferencia entre valor y farol”.

Una de sus manos más recordadas fue un 4-bet pot con AdAc frente a las QdQs de Gemini, en la que o3 se llevó el bote más grande de la partida tras terminar all-in con una over bet en un board 9d8d7c4h. Su rival, Gemini, pagó dejando una lectura: su over bet está muy polarizada, tengo muy buenas odds con mis damas.

PokerBattle.ai

Finalmente OpenAi o3 fue el máximo ganador de la partida con unos beneficios de 36.691 $, superando a última hora a Claude y Grok 4.

Claude Sonnet 4.5, de Anthropic, se llevó la plata con un estilo más conservador: jugó líneas que, aunque pasivas, funcionaron. Jugar poco y bien también tiene recompensa y ganó 33.641 $.

Grok 4, el bot apadrinado por Elon Musk, jugó con la misma energía con la que su creador tuitea: brillante, agresivo y a veces incomprensible. Estuvo líder buena parte del torneo, pero se desinfló en las últimas horas. Hizo 3-bets constantes, squeezes de farol y algún que otro hero call marca de la casa.

De hecho, ya hay apalabrado un duelo heads-up entre Grok y Phil Galfond con un millón de dólares en juego, pero en esta ocasión con dinero real, nada de play money.

Los demás: del nit francés al kamikaze de Meta

DeepSeek R1 fue el mejor del bloque medio y apostó por la solidez: apenas un 8,8% de 3-bets, sin extravagancias y con resultados más que positivos con 18.3416 $ de beneficio.

Gemini 2.5 Pro, de Google, mostró agresividad preflop, pero también dudas postflop: muchas subidas, pero muchos folds en river. Al final terminó ganando 14.655 $, así que tan mal no lo haría.

Mistral, el representante europeo, fue el 'nitazo' de la partida. Se podría decir que jugó como un “abuelo nit”: un 16% de VPIP sorprendentemente estable. Ganó un par de cajitas (3.281 $) para demostrar que el nitismo tiene recompensa.

Kimi K2 y Z.AI GLM 4.6 no pudieron mantenerse a flote. Jugaron con estilos predecibles y razonamientos que parecían escritos a posteriori. El primero perdió 14.370 $, mientras el segundo 'palmó 21.510 $.

Y luego está Meta LLama 4, la oveja descarriada de esta partida. Fue el único busto y lo consiguió jugando de forma bastante ociosa con un VPIP del 60%, limp-calls interminables y explicaciones que rozaban la poesía absurda. “O es valor o es bluff" escribió en una mano donde perdió la mitad del stack.

Y no hay nada que discutirle, porque claro, si no es una es otra, razón no le falta. Con ese razonamiento perdió los 100.000 $ del bankroll del que disponía cada participante, pero seguro que fue el que mejor se lo pasó.

Más allá de las fichas

La PokerBattle.ai no fue solo una curiosidad técnica. Expuso algo más profundo: los LLMs actuales pueden razonar y aprender sobre estrategia, pero siguen siendo incapaces de generar verdadera aleatoriedad o mantener coherencia GTO en partidas prolongadas. Como apuntó un comentarista en Hacker News:

“Un LLM no puede jugar póker competitivo. Carece de un mecanismo para generar estrategias mixtas. No puede balancear su juego de forma aleatoria y consistente”.

Aun así, el espectáculo funcionó. Las IA tomaban notas, analizaban cada acción, y justificaban cada decisión con párrafos enteros, como si estuvieran redactando su propia clase de GTO en directo.

Hubo errores, bugs y páginas que no cargaban, pero el resultado fue fascinante: una partida que mezcla Black Mirror con High Stakes Poker.

Al final de la partida se compartieron las estadísticas de todas las IAs.

Conclusión

OpenAI o3 se convirtió en el primer bot que jugó como un profesional humano. La IA de Elon Musk, Grok 4, fue el encargado de poner el espectáculo y LLama 4, que dio otro tipo de espectáculo, fue el recordatorio de que la 'varianza' también existe para los algoritmos, o por lo menos para los más ociosos.

La batalla de los cerebros artificiales deja una moraleja clara: aún falta para que las máquinas destronen a los grinders… pero por lo visto parece que ya han aprendido a farolear con estilo. ¿Verdad Meta Llama 4? ejem...

COMENTARIOS

Todavía no se ha realizado ningún comentario en esta noticia.