Introducción a las estadísticas detrás de la varianza

24 respuestas

06/01/2008 12:46

spainfull

Antiguedad
19 años

Mensajes
11.048

Este artículo es la traducción de un mensaje de holdem2000 en este hilo de los foros de 2+2. Su título original es " A primer on the statistics behind variance” y fue publicado el 12 de diciembre de 2007. MonJamon ya hizo una traducción de un artículo en el que se usaba una hoja Excel para calcular el rango de nuestro ratio de ganancias real. Pero he traducido éste porque creo que es un buen comienzo para todos aquellos que estén interesados en las matemáticas y en la estadística pero no se hayan atrevido a echarle un ojo por si resultara demasiado complicado. En el libro “Mathematics of Poker” aparece más o menos toda esta información entre otras muchas cosas. Ya se sabe, en esta vida, todo son numericos…

La idea para escribir este artículo vino tras un hilo en el que 1p0kerboy nos estábamos explicando de manera atropellada los mismos cálculos el uno al otro... mostrando parte de la información de manera un poco confusa. Aquí expreso todo esto de manera mucho más clara gracias a la discusión con 1p0kerboy.

En este mensaje voy a cubrir una serie de aplicaciones estadísticas para una mejor comprensión de la muestra de la varianza. Explicaré, asimismo, cómo usar la información obtenida de Poker Tracker para estimar intervalos en los que se encuentra el "verdadero" ratio de ganancias en un nivel dado de confianza. Antes de comenzar, voy a incluir un breve descargo de responsabilidad/rajada que es en realidad más un comentario técnico; puedes saltarte tranquilamente esta sección si no estás familiarizado de alguna forma con la idea de medir la varianza cuantitativamente y con la distribución normal... el resultado de este apartado es que las matemáticas que se mostrarán a continuación son una [probablemente ligera] estimación a la baja de la varianza real.

\comienzo rajada

La ganancia o pérdida de una mano de póquer es un valor aleatorio, pero con seguridad no es un valor normalmente distribuido. La distribución de las ganancias de la mano, sin embargo, tiene algún valor promedio. Así, el teorema del límite central nos asegura (siempre que el resultado de cada mano sea independiente e idénticamente distribuido) que, si consideramos muestras de la suma de ganancias de un número grande de manos, cada una de esas muestras es, de hecho, un resultado aleatorio normalmente distribuido.

Mientras un rango de 30 a 100 eventos tomados en conjunto es considerado normalmente suficiente para aplicar el teorema del límite central, las manos de póquer son un caso un poco más extremo, con eventos grandes (+/- 100 ciegas grandes) ocurriendo con una frecuencia tal que no creo que una muestra de 100 manos esté cercana a ser normalmente distribuida. La desviación estándar de la muestra de 100 manos proporcionada por el PT subestima la varianza verdadera. Por ejemplo, usando los números empleados más adelante en este artículo, la probabilidad de ganar 4 cajas (200PTBB) en 100 manos es 1 entre 5 millones.

Para concluir me gustaría destacar que, aunque las manos no son ni idénticamente distribuidas del todo (las distribuciones varían con la posición relativa al botón al menos) ni independientes (dependiendo de los rivales que tengamos, nos encontramos con series de manos con expectativa y varianza mayor o menor que la que tendríamos si jugáramos contra otro conjunto de rivales distinto). Estas variaciones de las asunciones del teorema del límite central conducen de nuevo a subestimar ligeramente la varianza total.

\fin rajada

Información de base

Antes de poder aplicar la información de este artículo, necesitas una estimación de tu ratio de ganancias, el número de manos total sobre la que está medido y un cálculo de la desviación estándar o varianza de tu ratio de ganancias para la muestra escogida. En PT, los dos primeros datos se encuentran en la pestaña "General Info.". Para obtener la desviación estándar es preciso seleccionar la pestaña "Session Notes", pulsar en "More detail..." y, en la ventana emergente, el texto en blanco que contiene "Standard Deviation/100 Hands:", que lo lista como una cantidad en $ y en ciegas grandes. Debería estar en un rango de 20 a 200 ciegas grandes, dependiendo del estilo de juego y del tipo de mesas en las que juegues.

Voy a asumir que ya sabes lo que significa el ratio de ganancias; hay que tener en cuenta que como normalmente se mide es en BB/100, siendo BB el acrónimo para ciegas grandes o apuestas grandes (dos veces la ciega grande). La última es la más estándar (a pesar de que tiene menos sentido para NL/PL) y es la que utilizaré en los cálculos (en adelante, escribiré ptBB/100 para indicar apuestas grandes del PokerTracker). Para cambiar el valor con el que PT muestra las estadísticas de ganancias, basta con ir a la pestaña "Preferences" y en la parte derecha en el centro de la pantalla, marca o desmarca “treat ‘BB’ For NL/PL As Big Blind Amt.” (se encuentra debajo del botón “Custom Levels…”.

La desviación estándar (SD) proporcionada por PT indica la SD de una muestra de 100 manos. La SD es una medida de la variación sobre el resultado medio -cuanto mayor sea la desviación estándar, más probable es que una muestra aleatoria de 100 manos se desvíe en mayor medida del ratio medio de ganancias-. Para números grandes de manos, asumiremos que las ganancias siguen una distribución normal. Las probabilidades basadas en una distribución normal son bien conocidas, emplearemos una tabla de distribución normal tipificada (aquí hay una) para calcular las probabilidades de varios resultados de variables aleatorias normalmente distribuidas.

Una introducción rápida a la distribución normal

Pongamos que las ganancias en cada una de las muestras de 100 manos están normalmente distribuidas con, por ejemplo, un beneficio medio de $15 y una desviación estándar de $100. Esto quiere decir que, cuando se jueguen 100 manos, aproximadamente el 68% de las veces las ganancias serán $15 +/- $100; es decir, entre -$85 y +$115. Del mismo modo, el 95% de las veces las ganancias serán $15 +- 2*($100); o lo que es lo mismo, entre -$185 y +$215. Y el 99,7% de las veces las ganancias serán $15 +/- 3*($100); o sea, entre -$285 y +$315. Conociendo la media y la SD de cada una de las muestras de 100 manos, se puede usar una tabla de distribución normal tipificada para calcular la probabilidad de que las ganancias de una muestra de 100 manos se hallen dentro de un intervalo dado (de aquí vienen los porcentajes 68, 95 y 99.7... más adelante en este artículo explicaré cómo puedes calcular este tipo de cosas tú mismo).

La cuestión es que no sabemos realmente cuál es nuestro verdadero ratio de ganancias. Si jugamos 100 manos y ganamos $15, podemos suponer que es de $15 cada 100 manos, pero en lugar de hacer una suposición como esta, sería mejor saber cómo es de probable que nuestro ratio real de ganancias se acerque a esta suposición. Si por casualidad conociéramos nuestra SD verdadera, podríamos construir intervalos de confianza... Asumamos que nuestra SD real es $100 cada 100 manos. Entonces un intervalo de confianza del 68% sería (-$85, +$115), un intervalo de confianza del 95% sería -$185, +$215, y así sucesivamente (estos intervalos son tan amplios porque 100 manos es, desgraciadamente, una muestra ridículamente pequeña). Un detalle importante a señalar es que el nivel de confianza (68%, 95%, etc.) NO es la probabilidad de que nuestro verdadero ratio de ganancias se encuentre en el intervalo calculado. Este tipo de probabilidad es imposible de conocer sin hacer asunciones mucho más complicadas y sin incluir un conocimiento más profundo de base. Lo que un 68% de intervalo de confianza de -$85, +$115 nos indica es que, si nuestro ratio real de ganancias fuera menor de -$85 cada 100 manos (o mayor de +$115 cada 100 manos), entonces en cualquier muestra de 100 manos dada, tener un resultado tan bueno como +$15 (o tan malo como -$15) ocurriría menos del 32% de las veces (100% - 68% = 32%).

Cálculos

La SD de cada una de nuestras muestras de 100 manos es algo que converge mucho más deprisa que nuestro ratio de ganancias y, tras un número relativamente pequeño de manos (por supuesto, hablamos de al menos miles de manos si queremos un dato fiable), podemos asumir que la SD proporcionada por PT es una muy buena aproximación de nuestra "verdadera" SD cada 100 manos.

A continuación, nos gustaría conocer la SD de nuestra muestra completa de manos... por ejemplo, vamos a poner que hemos jugado 138.200 manos y el PT nos dice que nuestra SD para cada muestra de 100 manos es de 38,8439 ptBB. Aquellos que no estén interesados en el razonamiento de los cálculos pueden saltar directamente al texto en negrita. Como nuestra muestra de138.200 manos es la suma de 1.382 muestras de 100 manos, la manera intuitiva de obtener el resultado sería coger la SD de 34,8439 y multiplicarla por 1.382... La SD no se calcula de esta manera "aditiva". Pero la varianza de nuestras muestras sí tiene esta propiedad. La varianza es, por definición, el cuadrado de la SD.

Así, la varianza de una muestra de 100 manos es igual a (38,8439)^2 = 1.508,85 (ptBB^2). La varianza de nuestra muestra completa de 138.200 manos es, entonces, igual a 1.382*1.508,85 = 2.085.230 (ptBB^2). Ahora podemos calcular la raíz cuadrada de este número para hallar la SD de la muestra completa: SD = sqrt(2.085.230) = 1444,03 ptBB.

Debido al hecho de que el ratio de ganancias se mide en ptBB/100, estaría mucho mejor si calculáramos la SD de la muestra en esa misma unidad. Nuestra SD de 1.444,03 ptBB está calculada sobre 138.200 manos, así que, cambiando la unidad, tenemos: SD = 1.444,03 / 1.382 = 1,045 ptBB/100.

Como atajo, se puede recordar que la SD (en ptBB) de la muestra de 138.200 manos, es igual a la SD de la muestra de 100 manos sqrt(1.382) veces y, si en lugar de eso, la queremos en ptBB/100, hay que coger la SD de la muestra de 100 manos y dividirla por sqrt(1.382):

SD = 38,8439 * sqrt(1.382) = 1.444,03 ptBB

SD = 38,8439 / sqrt(1.382) = 1,045 ptBB/100

Ahora estamos preparados para medir con precisión el error de la estimación de nuestro ratio de ganancias. Supongamos que en la muestra de 138.200 manos hemos ganado un total de 4.422,4 ptBB o, lo que es lo mismo, un ratio de ganancias de: 4.422,4 / 1.382 = 3,2 ptBB/100. Hemos calculado que la SD de esta muestra de 138.200 manos es 1,045 ptBB/100, así, un intervalo de confianza del 68% para nuestro ratio de ganancias es (3,2 +/- 1,045) ptBB/100, un intervalo de confianza del 95% es (3,2 +/- 2*1,045) ptBB/100, y así sucesivamente. Puedes hacerte una buena idea de tu verdadero ratio de ganancias simplemente recordando que puedes calcular un intervalo de confianza del 95% para tu ratio real de ganancias, sumando o restando a tu ratio de ganancias el doble de la SD (en ptBB/100) calculada.

El resto del artículo precisa de la utilización de una tabla de distribución normal tipificada. Si queremos encontrar un intervalo de confianza del 98%, debemos mirar cuántas SD nos tenemos que desviar desde la media en cada dirección para incluir el 98 de la distribución normal. Normalmente, cuando encontramos un intervalo de confianza del 98%, querríamos que el 2% de la distribución que no incluimos se dividiera equitativamente - el 1% de los valores más altos y el 1% de los valores más bajos-. De esta forma, deberíamos mirar en la tabla de distribución normal tipificada cuántas SD por encima de la media debemos estar para que quede solamente el 1% de la distribución; por ejemplo, buscamos el valor Z que marca .99 en la tabla. Este valor es 2,33 (y -2,33 es el valor Z con únicamente el 1% de la distribución normal por debajo de él), así que, siguiendo con nuestro ejemplo, un intervalo de confianza del 98% para nuestro verdadero ratio de ganancias es (3,2 +/- 2,33*1,045) ptBB/100.

Ahora echemos un ojo a un problema similar. Queremos encontrar para qué nivel de confianza podemos estar seguros de que somos un jugador ganador. Básicamente lo que queremos saber es nuestro nivel de confianza en el intervalo (0, infinito). Las cantidades a encontrar son para las que la distribución normal con media 3,2 y SD 1,045 se sitúan por encima del valor 0. Para hacer esto, hay que calcular cuántas SD 0 se aleja de 3,2:

(3,2 – 0) / 1,045 = 3,062 SD.

Usando una tabla de distribución normal tipificada, hallamos que la media solo incluye el 0,11% de los datos, así podemos concluir que tenemos un nivel de confianza del 99,89% de que nuestro ratio de ganancias es positivo.

Si quisiéramos hallar el nivel de confianza en un intervalo arbitrario, pongamos (X, Y), haríamos lo mismo: usaríamos una tabla de distribución normal tipificada para calcular cuánto de la distribución normal está por debajo de X y cuánto por encima de Y; si el 10% está por debajo de X y el 20% por encima de Y, entonces (X, Y) es un intervalo de confianza del 70% (100% - 10% - 20%).

Para aquellos que tengan previsto hacer cálculos similares de forma habitual, recomiendo familiarizarse con las funciones de Excel, NormInv y NormDist, que evitarán usar una tabla de distribución normal tipificada y permitirá encontrar valores con una mayor precisión.

_______

Para el que haya encontrado interesante el artículo, un enlace en el que se discute por qué no es correcto el cálculo que hace PT de la SD y por qué no sigue una distribución normal (principalmente por Pokey). Otro, a raíz del anterior sobre la varianza y si sigue una distribución normal en muestras de 1000 manos.

06/01/2008 13:27

CHANKUMAN

Antiguedad
17 años

Mensajes
67

Re: Introducción a las estadísticas detrás de la varianza

Muchas gracias se agradecen aportaciones de este tipo

06/01/2008 15:12

MuckeDBoY

Antiguedad
18 años

Mensajes
613

Re: Introducción a las estadísticas detrás de la varianza

Pero si no lo has leido mentiroso :P

06/01/2008 17:12

Klaudioz

Antiguedad
19 años

Mensajes
3.550

Re: Introducción a las estadísticas detrás de la varianza

Gran aporte ¡¡

Yo hace un tiempo hice un tema de como calcular estos datos con hartos graficos en Excel, ahi va: ¿Cuantas manos necesito para saber que soy un ganador en el Poker?. Parte I

Cuando tenga tiempo para leer el mathematics of Poker, espero hacer otras cosas parecidas.

07/01/2008 13:52

cartapel

Antiguedad
18 años

Mensajes
47

Re: Introducción a las estadísticas detrás de la varianza

Yo recomendaría jugar con la Distribución Binomial. Ahí puedes ver con todo detalle la varianza para la apuesta que quieras. Yo me fijo especialmente para las de botes gordos, que son las que más bamboleos le dan a los resultados.

09/01/2008 20:26

spainfull

Antiguedad
19 años

Mensajes
11.048

Re: Introducción a las estadísticas detrás de la varianza

07/01/2008 13:52

cartapel

Antiguedad
18 años

Mensajes
47

Re: Introducción a las estadísticas detrás de la varianza

cartapeYo recomendaría jugar con la Distribución Binomial. Ahí puedes ver con todo detalle la varianza para la apuesta que quieras. Yo me fijo especialmente para las de botes gordos, que son las que más bamboleos le dan a los resultados.

no entiendo, ¿podrías explicar un poco más? Yo no soy un experto en estadística, pero entiendo que la probabilidad del éxito no es constante entre sucesos de la muestra, ¿no? (ni los sucesos son independientes uno del otro en realidad).

10/04/2008 15:11

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

spainfull;99455 escribió:

no entiendo, ¿podrías explicar un poco más? Yo no soy un experto en estadística, pero entiendo que la probabilidad del éxito no es constante entre sucesos de la muestra, ¿no? (ni los sucesos son independientes uno del otro en realidad).

Si, son independientes. Pero a ver si tengo un rato, me leo el articulo en profundidad y respondo con mas criterio...

corp

10/04/2008 15:51

trepaclimb

Antiguedad
17 años

Mensajes
1.231

Re: Introducción a las estadísticas detrás de la varianza

Excelente aportación, a ver si después de rellerlo un par de veces lo asimilo bien...

10/04/2008 16:08

trepaclimb

Antiguedad
17 años

Mensajes
1.231

Re: Introducción a las estadísticas detrás de la varianza

No me deja editar así que tengo que poner otro post...

Será una pregunta súper chorra seguramente, pero... ¿para qué sirve saber la SD para saber si soy un ganador en determinado nivel, si tienes un BB/100 positivo? osea, quiero decir, ¿es posible tener un +2BB/100 y perder dinero a largo plazo teniendo la SD que sea?

10/04/2008 16:18

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

trepaclimb;127537 escribió:

Será una pregunta súper chorra seguramente, pero... ¿para qué sirve saber la SD para saber si soy un ganador en determinado nivel, si tienes un BB/100 positivo? osea, quiero decir, ¿es posible tener un +2BB/100 y perder dinero a largo plazo teniendo la SD que sea?

Lo que calculas es tu CONFIANZA como jugador ganador. O de otro modo, la confianza de que tengas ganancias, y no perdidas.

Un jugador ganador al 68% es un buen jugador, a largo plazo, es dificil que tenga perdidas. De cada 100 veces que el jugador se ponga a jugar, en 68 de ellas tendra ganancias, y el resto, perdidas.

Un ganador al 90% es muy dificil que tengas saldos negativos. Uno al 50%, pues cada dos veces, tendra perdidas.

Un individuo puede haber tenido ganancias hasta ahora, pero al tener mucha varianza a largo plazo puede ser que pierda.

He leido el articulo, y una de dos, o el usuario que ha mencionado la distribucion binomial no se ha leido el articulo entero, o esa distribucion la aplica a cualquier otra cosa que no tiene nada que ver con el mismo.

Por cierto, el articulo hace algunas afirmaciones que no se realmente de donde las saca, y tengo que ver que es la SD para el Poker Tracker, para asegurar que los calculos estan bien.

corp

11/04/2008 08:30

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

Bueno, yo sigo con mis dudas, segun el hilo de 2+2, el PT calcula la varianza con el "viejo metodo" de B&M, que segun he investigado por ahi, es de Barraquand & Martineau...

De todos modos, me parece una jartada eso de "el viejo metodo de B&M", por que, sinceramente, no lo habia oido en mi vida, y buscando por los internets no he encontrado ninguna referencia al mismo, asi que tan conocido no puede ser...

Por ultimo, la varianza viene dada como "desviacion estandar por hora/100 manos"... esto es lo que me plantea la duda... que no se si es la desviacion de cada 100 manos, o la de las ultimas 100 manos, u otra cosa maquiavelica del autor del PT.

De todos modos, si tienen el historial de las manos con sus ganancias, pueden calcular la varianza facilmente. Me tengo que volver a leer el hilo de las bases de datos de PT...

corp

17/04/2008 14:15

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

Bueno, tras mucho darle vueltas, creo que el articulo esta lleno de errores de concepto, que no entiendo como han podido pasar por alto (probablemente por que nadie le haya prestado la atencion necesaria).

Me da muchisima pereza distutir en ingles tecnico, pero si tengo un rato, posteo en el foro de 2+2 mi respuesta de los errores del articulo.

Tengo esa opcion, o escribirlo correctamente aqui, en perfectisimo castellano... no se.

corp

17/04/2008 20:38

isaac177

Antiguedad
19 años

Mensajes
2.485

Re: Introducción a las estadísticas detrás de la varianza

Lo escribes en castellano y que alguien te ayude a traducirlo y lo pones en 2+2

18/04/2008 09:57

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

isaac177;129636 escribió:

Lo escribes en castellano y que alguien te ayude a traducirlo y lo pones en 2+2

Estoy escribiendolo directamente en ingles... Al final he decidido no ser tan perro 😄

Pero antes he contactado con el autor para que clarifique algunos terminos... Por que eso de "desviacion estandar en 100 manos" no me queda nada claro.

Pero vamos, cada vez tengo mas claro que o bien el PT hace algo raro con la desviacion estandar, o los calculos de este tipo son incorrectos.

corp

18/04/2008 18:07

haroldmk

Antiguedad
18 años

Mensajes
3.033

Re: Introducción a las estadísticas detrás de la varianza

Pues, eso de las SD/100 es simplemente una medidad "normalizada". Como sabes, la desviación estándar no tiene propiedad aditiva, como si lo tiene la varianza. Entonces lo que tienes que hacer es, a esos datos de SD/100 elevarla al cuadrado, así tienes la varianza cada cien manos, lo divices entre cien y tienes la varianza por mano, y luego la raíz cuadrada a eso y obtienes la desviación estándar por mano. O de plano, a ese dato de SD/100 lo divides entre 10 (la raíz de 100) y tiene la SD/mano.

18/04/2008 19:08

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

Ya, pero es que el termino "desviacion estandar cada 100 manos" no existe.

Es la desviacion estandar de la suma de 100 manos, ni siquiera eso, por que eso supondria calcular la ds de una nueva variable que fuese sumando de 100 en 100 manos.

Eso es lo que lleva a error.

En el privado que le mando al autor le digo que es "10 veces la desviacion estandar", y que eso no tiene nombre tal cual, que decir "sd de 100 manos" lleva a error.

corp

19/04/2008 20:47

haroldmk

Antiguedad
18 años

Mensajes
3.033

Re: Introducción a las estadísticas detrás de la varianza

Ahí no hay ningún error, es una medida normalizada de la desviación estándar que da el poker tracker, es como que digas que el término "ganancias de 3ptBB cada 100 manos" no exista. El poker tracker lo que hace es calcular la desviación estándar total y la normaliza a cada 100 manos al igual que da una medida normalizada de las ganancias cada 100 manos.

20/04/2008 16:19

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

haroldmk;130174 escribió:

Ahí no hay ningún error, es una medida normalizada de la desviación estándar que da el poker tracker, es como que digas que el término "ganancias de 3ptBB cada 100 manos" no exista. El poker tracker lo que hace es calcular la desviación estándar total y la normaliza a cada 100 manos al igual que da una medida normalizada de las ganancias cada 100 manos.

Si, ayer por fin me pasaron el articulo donde se habla del calculo de la ds en poker (que, por cierto, sigue sin cuadrarme con lo que da el PT).

Tiene que ver con las ganancias por sesion y 100 manos, por eso lo llama ds de 100 manos. Es un invento creado en un articulo.

Me gustaria echar un vistazo al desarrollo, por que solo tengo la formula.

La duda que me entra es, si se puede calcular la varianza directamente, ¿por que se hace mediante una formula?

corp

21/04/2008 00:15

haroldmk

Antiguedad
18 años

Mensajes
3.033

Re: Introducción a las estadísticas detrás de la varianza

¿qué fórmula? El poker tracker calcula la desv. est. directamente de las ganancias de cada una de las manos jugadas para un determinado jugador y luego lo normaliza a cada 100 manos.

21/04/2008 09:47

corpcd

Antiguedad
17 años

Mensajes
2.702

Re: Introducción a las estadísticas detrás de la varianza

Joer, lo decis tan seguros que uno no se atreve a indagar, pero veo que estoy como para fiarme...

haroldmk;130516 escribió:

¿qué fórmula? El poker tracker calcula la desv. est. directamente de las ganancias de cada una de las manos jugadas para un determinado jugador y luego lo normaliza a cada 100 manos.

No, el PT calcula la varianza segun esta publicado en un libro de Mason Malmuth y que a su vez se basa en un articulo llamado "How much do you need?" (¿cuanto necesitas?).

En definitiva, se trata de calcular una especie (no es exactamente) de desviacion tipica de las ganancias por cada 100 manos de todas las sesiones, pero ponderandola por una variable, que en el articulo original era el tiempo, pero que a efectos del PT la han cambiado por el numero de manos... probablemente por los comentarios al articulo en los foros de 2+2.

Digo que es una "especie de" por que no es exactamente una varianza ponderada.

Es una pena no tener el articulo original, para saber de donde sacan la expresion de la desviacion estandar... dice que "esta basado en la experiencia de los profesionales".... Se ve que era un hilo de 2+2, pero que ahora mismo ya no existe.

No se...

Aqui esta el extracto del libro de Malmuth:

PokerTracker • View topic - How does PT calculate standard deviation/100 hands?

Por cierto, como veis, he intentado reproducir los resultados y no me salen ni de coña. Yo creo que el tipo de PT solo usa ciertas sesiones, y no todas.

Tengo una sesion de dos manos, en la que a la segunda me sacaron una caja con un badbeat, y deje de jugar inmediatamente, esa sesion me cuenta como:

-100/2*100=-5000BB, a la hora de calcular la varianza, y claro, me sesga los resultados...

¡voto a brios! ¡dadme una medida robusta y estimare lo que sea!

corp

01/08/2008 21:38

haroldmk

Antiguedad
18 años

Mensajes
3.033

Re: Introducción a las estadísticas detrás de la varianza

Revivo este tema porque ando detrás de unas cosas de la varianza.

Primero que todo tengo que decir que la mayoría de las cosas que dije en mis anteriores entradas en este hilo son incorrectas y se basaron en un cálculo que hice y que creí era correcto, pero no es así.

Gracias al hilo que corpcd abrió en el foro del PokerTracker y las respuestas que recibió del administrador (?) pude dar con una parte del libro de Mason Malmuth "Gambling Theory" donde explica el cálculo de un estimador de máxima verosimilitud para la desviación estándar.

Dado que el PT usa un estimador de la SD y no la SD total (cosa que podría hacer fácilmente) hay algunas cosas en el artículo que no cuadran. Ahora toca estudiar un poco de la teoría esta y corregir cosas que pudiesen estar mal en el artículo o en la traducción.

08/09/2009 23:14

ways of f…

Antiguedad
15 años

Mensajes
22

Re: Introducción a las estadísticas detrás de la varianza

Hola!!

Solo quería comentar que, en general, la introducción a la estimación del EV me parece correcta, sencilla... pero las cosas que se han dicho de la desviación típica y la varianza me parecen bastante incorrectas, y en concreto, los cálculos sobre la SD realizados están completamente mal.

La SD de cada una de nuestras muestras de 100 manos es algo que converge mucho más deprisa que nuestro ratio de ganancias y, tras un número relativamente pequeño de manos (por supuesto, hablamos de al menos miles de manos si queremos un dato fiable), podemos asumir que la SD proporcionada por PT es una muy buena aproximación de nuestra "verdadera" SD cada 100 manos

Esto es sencillamente falso. La SD es una variable aleatoria igual que el winrate. El winrate se aproxima a una distribución de probabilidad normal, y la SD sigue también su propia distribución de probabilidad. E igual que pasa con la winrate, la SD solo la podemos estimar mediante sus correspondientes intervalos de confianza. Y en general, comparando ambos parámetros poblacionales, SD y media atitmética( o winrate), converge más rapido, es mas estable, el winrate que el SD; ne necesitan muestras mayores para hacer una estimación con la precisión deseada de la SD que cuando se hace para la winrate.

A continuación, nos gustaría conocer la SD de nuestra muestra completa de manos... por ejemplo, vamos a poner que hemos jugado 138.200 manos y el PT nos dice que nuestra SD para cada muestra de 100 manos es de 38,8439 ptBB

Pudiera ser que yo me he dedicado a aprender algo de estadística, la razón de que nunca hubiera interpretado que la SD calculada por el poker tracker, que la da en BB/100 significa la SD para cada muestra de 100 manos.

Como nuestra muestra de138.200 manos es la suma de 1.382 muestras de 100 manos, la manera intuitiva de obtener el resultado sería coger la SD de 34,8439 y multiplicarla por 1.382... La SD no se calcula de esta manera "aditiva". Pero la varianza de nuestras muestras sí tiene esta propiedad. La varianza es, por definición, el cuadrado de la SD

Nunca lei que ni la SD ni la varianza tuvieran alguna "propiedad aditiva"

El cálculo correcto de la SD

Yo voy a decir, según mis conocimientos, cómo se calcularía la SD. Tu al pokertracker le puedes decir la muestra de partidas sobre la que realize los calculos( winrate, sd, etc). Lo normal es realizar los cálculos sobre las manos jugadas más recientes( el último mes, trimestre, semestre o año).

No creo que la SD calculada por el programa sea la SD de cada muestra de 100 manos. Es una idea ridícula. La SD es una variable aleatoria, por eso no tiene sentido deducir la SD que tendría una muestra de tamaño X a partir de la SD de una muestra de otro tamaño.

Pues bien, cuando el programa te da el winrate en BB/100, solo han multiplicado por 100 el valor del winrate,y por tanto, bastaría con dividir por 100 para obtener el valor requerido para estimar la EV. Sin embargo para calcular la SD en BB/100, no tengo claro si han multiplicado el valor por 100. No lo tengo claro CONFUSEd

Pero podemos hacer una cosa para averiguarlo. Cualquiera puede calcular la winrate y la SD de una pequeña muestra, 100 manos o menos, y decirme los valores que les da el programa pokertracker. Pero también me tienen que pasar las ganancias de cada mano de esa muestra, para yo calcular manualmente la SD, y comparamos, a ver si hay coincidencias😄

En definitiva: la EV nuestra se estimaría como EV = winrate +- SD/sqrt(tamaño_muestra)* nivel_confianza

un saludo

08/09/2009 23:26

spainfull

Antiguedad
19 años

Mensajes
11.048

Re: Introducción a las estadísticas detrás de la varianza

en el enlace que hay al final de la traducción (yo tengo la estadística avanzada bastante oxidada), hay un comentario que dice lo siguiente:

"1. You assume that the reported "SD/100" from Poker Tracker means something. It doesn't. PT calculates your SD/100 by looking at how far your session winrates deviate from your overall winrate, and then calculating the standard deviation after weighting by the number of hands played in each session. That means that if you played a 100,000 hand "session" all at the same time (drink lots of coffee, my friend) Poker Tracker would report a SD/100 for that 100,000 hands as zero. When the length of your SESSIONS affects the standard deviation of your HANDS you have an unreliable measure.

2. You assume that your return on a hand is normally distributed. It's not. Take a look at a long history of hands and you'll find several discrete jumps in the histogram of your win per hand: one around 100 BBs, one around -100 BBs, and an incredibly large one at exactly 0 BBs.

If you want a better measure of your performance while playing, I suggest the following:

- Open Poker Tracker

- Open Ring Game Player Statistics

- Go to "Game Notes"

- Click "Get All" to open all the hands you've played

- See the five tiny buttons to the left of "Game Info: xxxx of xxxx Games Displayed" that are marked "s p r g g"? Click the one marked "p".

- In the bottom right corner of the window that pops up, click "Export."

- Check the box for "Net" and select file type "Excel."

- Export to a file.

You'll now have every HAND you've played, sorted by winrate. (If you have more than 65k hands, I believe you'll have to export it in chunks in order for Excel to access it all.) Now you can calculate your winrate per hand (it will be 1/50th what PT reports as BB/100). Also, you can caluclate your standard deviation per hand played by using the Excel command "stdev" with something like "=stdev(a2:a50000)" and it will tell you your TRUE standard deviation per hand dealt. This number will be significantly different from your "SD/100" from Poker Tracker. This does not address the non-normal distributional issue, which I still consider significant. The most "non-normal" part of your distribution should be the spike at 0 BBs from when you fold preflop. I suggest deleting these hands from your spreadsheet and re-calculating your average and standard deviation. This will be your winrate and standard deviation per PLAYED hand, and it will be noticeably more normally distributed (though the tails are still ENTIRELY too fat to be a true normal distribution). I'm not enough of a stats pro to run all the goodness-of-fit models to determine which distribution most closely resembles my data, and even if I did it wouldn't apply to anybody else's data or even to my data from another sample. However, assuming a normal distribution AFTER we eliminate the zeroes shouldn't be TOO far off the mark (though a t-distribution with few observations would probably be better).

As an example, I looked at my 22k dataset for the $100NL tables. After deleting the zeroes, I had a bit over 11k hands where my return was non-zero. I found that over those hands my average win was about $0.40 per hand with a standard deviation of about $15 per hand. Looking at this on a per-HUNDRED basis, that would be $40 per hundred hands (played, not dealt) with a standard deviation of $150 per hundred hands played. (Standard deviation increases linearly, but variance increases with the square root of the number of hands dealt, so we multiply my mean return by 100 but we only multiply my variance by the square root of 100, or 10.)

If you plug these numbers into your distribution estimator, you'll find that the distribution has bumps along the way, but the 30-buyin downswings are extremely unlikely: I had to run a million hands to get a downswing over 20 buyins. And remember: this is hands played from SB, from BB, or for money; that's like 2 million hands dealt. After running through simulations of 10 million hands played, I still didn't have a downswing over 26 buyins reported.

Now, some things to consider:

1. A normal distribution will underestimate the volatility in poker. If we used a t5 distribution instead of normal, you'd have bigger swings.

2. A smaller winrate will lead to bigger swings. Your mileage may vary.

3. A larger standard deviation will lead to bigger swings. I have no idea of my standard deviation per hand played is small, big, or average; if your is noticeably different than mine, you'll get noticeably different results.

----------

I realize this post is very technical, but the assumptions that people routinely make about poker winrates and the like are dangerously incorrect. I don't have all the answers because I'm not enough of a stats person or enough of a workhorse to do all the calculations. If someone is REALLY interested in figuring out the last details, I suggest you start by looking at a Kolmogorov-Smirnov goodness-of-fit test as a starting point. Note that the K-S test probably isn't the right choice, since you'll be estimating the mean and standard deviation of your normal distribution from your sample data, which will invalidate the critical numbers for statistical significance that most K-S distributions rely on. It's a thorny problem, and one that I'd rather not work out further."

08/09/2009 23:50

ways of f…

Antiguedad
15 años

Mensajes
22

Re: Introducción a las estadísticas detrás de la varianza

y mi inglés siempre ha sido bastante torpe.... una traducción se agradecería 😄

Pero weno, lo que me faltó decir es que el PokerTracker solo hace un cambio de unidades; da igual que la winrate y la SD se expresen en BB/100 o en BB o en BB/hours; la estimación de la EV no varía por un cambio de unidades.

09/09/2009 01:06

ways of f…

Antiguedad
15 años

Mensajes
22

Re: Introducción a las estadísticas detrás de la varianza

Ya busqué el hilo original del foro 2+2 y lo traducí con el google :D

Resumiendo, dice que el Poker Tracker realiza una mala estimación de la desviación estandar, y lo que recomienda es lo que yo también pensé: exportar del programa a un archivo de texto los resultados de ganancias obtenidos en las manos de una muestra que deseemos, para luego tratarlos en una hoja de cálculo como excel. Y luego calcular correctamente, con la fórmula de la SD correspondiente, el valor de la SD. De esta forma se puede estimar la EV.

También el texto advierte que la EV no se ajusta exactamente a una distribución normal, sino que solo lo realiza de forma aproximada, aunque se utilicen miles de manos. Yo esto ya lo suponía, que solo existe una aproximación, porque realmente el EV del poquer está determinado por distribuciones DISCRETAS, y en particular, por distribuciones multinomiales. En cualquier caso, la aproximación es suficiente para lo que interesa el caso, y es saber si un jugador es ganador o perdedor, si tiene o no un buen winrate, si tiene mucha desviación o no. Para eso no hace falta tener precisión; se trata básicamente de hacer un análisis cualitativo de nuestros resultados en el juego; no de trata de hacer análisis cuantitativos, de conocer con buena precisión nuestros valores.

En cualquier caso, si hacemos los cálculos de nuestro winrate y desviación típica con herramientas estadísticas como excel, nos los dará en valores por mano, BB por mano, y no en BB/100 como el poker tracker, pero basta con multiplicar por 100 tanto el winrate como el SD para tenerlos como el poker tracker; es solo un cambio de unidades.

Responder

¿Quieres participar?

Inicia sesión o crea tu cuenta gratis para formar parte de la comunidad de Poker-Red.

CREA TU CUENTA INICIA SESIÓN