GTO Wizard AI supera a los grandes modelos de IA en duelos heads-up
La inteligencia artificial sigue empujando los límites del póker, pero no todas juegan en la misma liga. Un nuevo benchmark ha colocado a GTO Wizard AI como la referencia actual entre los modelos aplicados al juego, superando con claridad a sistemas generalistas como GPT-5.3, GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro o Grok 4.
El resultado refuerza una idea que cada vez pesa más en la industria: razonar muy bien no basta si no entiendes de verdad la lógica estratégica del No-Limit Hold’em.
La pregunta lleva años flotando sobre la industria del poker: ¿cuándo será realmente buena una inteligencia artificial para competir de tú a tú con humanos y con otros sistemas diseñados específicamente para jugar? La respuesta, al menos a día de hoy, apunta en una dirección muy concreta. Los modelos generalistas siguen avanzando a toda velocidad, pero cuando se sientan a jugar al poker contra una IA creada para eso, todavía salen mal parados.
Eso es precisamente lo que refleja el nuevo benchmark presentado alrededor de GTO Wizard AI, un agente especializado que ha tomado la delantera en este terreno. El estudio compara distintos modelos de inteligencia artificial en situaciones de juego reales y mide su rendimiento a través de una tasa de victoria ajustada por varianza. Es decir, no se limita a mirar quién gana o pierde unas manos concretas, sino que intenta aislar la calidad real de las decisiones tomadas.
Ahí es donde GTO Wizard AI ha marcado diferencias.
We benchmarked every major AI model at poker.
GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 and more.
All played 5,000 hands of heads-up no-limit against our state-of-the-art poker agent.
Every single one lost. Here's the full breakdown 🧵 pic.twitter.com/Krbg3VHQjN— GTOWizard (@GTOWizard) April 9, 2026
Un modelo entrenado para pensar como un jugador
GTO Wizard AI es un agente diseñado específicamente para el poker y utilizado en las soluciones avanzadas de la plataforma. Su origen se remonta a Ruse AI, una tecnología desarrollada por los programadores canadienses Marc-Antoine Provost y Philippe Beardsell y adquirida por GTO Wizard en 2023.
A diferencia de los bots tradicionales, que dependían de estrategias precalculadas, este modelo se basa en aprendizaje por refuerzo profundo, entrenándose a sí mismo durante cientos de millones de manos. El objetivo: identificar qué decisiones generan mayor valor esperado en cada situación.
El resultado es un sistema capaz de analizar escenarios en tiempo real y adaptarse dinámicamente durante la partida.
Los modelos generalistas se acercan… pero aún no alcanzan al especialista
El mejor clasificado entre los modelos generalistas ha sido GPT-5.3, que aun así aparece por detrás del agente especializado con un registro de -16 bb/100. Dicho de otro modo, dentro de este entorno de prueba fue el que mejor aguantó el tipo entre los grandes modelos de propósito general, pero siguió cediendo terreno de forma clara frente a una IA entrenada específicamente para entender el poker.
Por detrás aparece GPT-5.4, que figura con -17,8 bb/100 y otra variante de GPT-5.3, en este caso con razonamiento alto, baja hasta -18,2 bb/100. Más atrás queda Claude Opus 4.6, de Anthropic, con -20,4 bb/100. En el texto original también se menciona a Gemini 3.1 Pro, con -30,8 bb/100, como otro ejemplo de que incluso los modelos más potentes en razonamiento siguen sufriendo cuando tienen que desenvolverse en un entorno de decisión tan específico como el No-Limit Hold’em. Y bastante más abajo aparece Grok 4, el modelo de xAI, que según esos datos se sitúa en -60 bb/100, una diferencia ya muy seria respecto al líder.
Ese reparto de resultados cuenta una historia bastante clara. Los grandes modelos generalistas han mejorado muchísimo a la hora de razonar, interpretar contexto y resolver problemas complejos, pero el poker no perdona los atajos. Aquí no basta con parecer inteligente: hay que construir rangos, equilibrar frecuencias, entender los blockers, calcular líneas de valor esperado y adaptarse a árboles de decisión muy profundos.
Y en ese barro, el especialista sigue mandando.
La ventaja del especialista: aprender jugando millones de manos
La fortaleza de GTO Wizard AI viene precisamente de ahí. No nace como un modelo general al que luego se le enseña a jugar, sino como un agente concebido para ese entorno competitivo. A diferencia de bots más antiguos basados en estrategias precalculadas, este sistema ha sido entrenado mediante deep reinforcement learning, jugando cientos de millones de manos contra sí mismo para aprender qué decisiones producen mayor valor esperado en cada spot.
Esa diferencia metodológica también explica por qué el modelo ya había dejado una señal potente antes de este benchmark. En un enfrentamiento controlado de 150.000 manos contra Slumbot, uno de los bots de referencia del sector, GTO Wizard AI firmó una tasa de victoria de 19,4 bb/100. Para poner la cifra en contexto, un profesional humano de máximo nivel puede considerar excelente un win rate de alrededor de 5 bb/100.
Lo de GTO Wizard AI ya juega en otra liga.
Otro punto importante del benchmark es que intenta corregir el eterno problema del póker: la suerte a corto plazo. Para ello se utiliza AIVAT, un sistema estadístico que reduce el impacto de la varianza y permite valorar mejor la calidad real del juego. Es una herramienta clave, porque una muestra pequeña de manos puede engañar muchísimo si solo se mira el resultado bruto. Con este ajuste, lo que se intenta medir no es tanto quién ligó más, sino quién tomó mejores decisiones de forma consistente.
Y eso vuelve a favorecer al especialista.
La conclusión que deja este nuevo test no es que los grandes modelos generalistas sean malos. Ni mucho menos. De hecho, que nombres como GPT-5.3, GPT-5.4 o Claude Opus 4.6 aparezcan relativamente cerca unos de otros ya dice bastante sobre el nivel que han alcanzado. Pero una cosa es razonar bien en términos generales y otra muy distinta dominar un entorno tan técnico, imperfecto y agresivo como una mesa de poker.
Ahí, por ahora, GTO Wizard AI no tiene rival entre los modelos comparados.
Todavía no se ha realizado ningún comentario en esta noticia.
¿Quieres participar?
Es fácil y no te costará nada
¡únete a Poker-Red!