Știința din spatele bluffului: Cum teoria jocurilor susține blufful optim în poker

Cine spune că pokerul este doar un joc de noroc probabil nu are multă experiență de joc. Pokerul, deși are și norocul partea lui, este și un joc de strategie care necesită abilități de observare a celorlalți participanți, abilități mentale și psihologice pe care jucătorul continuă să și le șlefuiască cu timpul. Pokerul este un joc palpitant care te pune în poziția de a-ți analiza adversarii, de a lua decizii sub presiune și de a calcula riscurile.

Iar blufful e un element esențial în jocul de poker și în modul în care jucătorul își țese strategia. Ideea acestuia e să-i faci pe ceilalți să creadă că ai o mână mai puternică decât chiar ai, astfel încât aceștia să dea înapoi. Iar un bluff credibil nu e simplu de făcut; trebuie să alegi momentul potrivit, să știi să-ți citești adversarul, și să nu abuzezi de acesta. Dar tocmai acest nivel psihologic al pokerului îl face atât de fascinant. 

Vom discuta astăzi despre bufful în poker și cum este acesta susținut și intersectat cu diverse concepte din teoria jocurilor.

Ce este teoria jocurilor în poker

Pentru a porni în acest ghid cu claritate, haideți să vorbim pe scurt despre ce vrem să spunem cu teoria jocurilor în poker. Teoria jocurilor face referire la studiul matematic și strategic al interacțiunilor competitive dintre actorii pe care îi numim “jucători”. Iar teoria jocurilor aplicată în poker se referă la utilizarea principiilor strategice și matematice studiate pentru:

  • A înțelege comportamentul celorlalți jucători de poker și interacțiunile dintre ei.
  • A prezice comportamentele și posibilele decizii ale jucătorilor.
  • A lua decizi optime în timpul jocului ca participant la poker, adică a alege acele strategii de joc care să-ți maximizeze câștigul.
  • A lua în considerare toate acțiunile posibile ale celorlalți jucători ca răspuns la deciziile tale.

Teoria jocurilor susține astfel și blufful, ajutându-te să determin momentul potrivit pentru acesta, modul în care să-l faci și cum să-l ajustezi în funcție de strategia de joc al adversarilor.

Am împrumutat din engleză un termen pentru a ne referi la modalitatea matematic perfectă de a juca poker, astfel încât să fie imposibil să fii exploatat de adversari și anume Game Theory Optimal (GTO). Se presupune că dacă joci o strategie GTO perfectă, adversarii tăi nu ar putea face mai mult decât să ajungă la egalitate cu tine — și asta doar dacă și ei joacă o strategie GTO perfectă. 

În realitate, strategia actuală GTO optimă sau perfectă în poker nu este încă cunoscută (și poate că nu va fi niciodată pe deplin cunoscută din cauza complexității jocului). Totuși, anumite aspecte ale strategiei GTO sunt cunoscute, cum ar fi utilizarea strategiilor mixte, a intervalelor echilibrate și a mai multor dimensiuni de pariere în aceeași situație cu mâini diferite.

Ce este teoria jocurilor în poker


Conceptul de Echilibrul lui Nash

John Nash a dezvoltat teoria jocurilor ca o ramură a matematicii la Universitatea Princeton în jurul anului 1950. După acesta a fost numit și conceptul de Echilibrul lui Nash, care se referă la o stare stabilă în care fiecare participant face ceea ce este optim pentru el, având în vedere alegerile celorlalți participanți. Jucătorul care se află în această situație nu își poate îmbunătăți poziția schimbându-și strategiile de acțiune atâta timp cât ceilalți jucători rămân cu aceleași strategii.

Conceptul de Echilibrul lui Nash are aplicații în mai multe domenii, de la economie și biologie, la, desigur, jocul de poker, unde acesta ar însemna că fiecare jucător de poker a ales o strategie optimă și nici o modificare a acesteia nu ar aduce un avantaj în plus.

Echilibru Nash în poker se obține atunci când toți jucătorii aleg "strategii" (rețete despre cum să joace în fiecare situație posibilă - când și cât să parieze, când să facă bluff, când să renunțe, etc.) care maximizează câștigurile monetare, având în vedere strategiile folosite de ceilalți jucători. Dacă ai putea juca o strategie de echilibru Nash în poker, nu ai pierde niciodată bani pe termen lung (odată ce norocul cărților s-ar echilibra), indiferent cine ar fi adversarii tăi. Chiar dacă ceilalți jucători ți-ar cunoaște strategia, nu te-ar putea învinge - strategia ta ar fi " de neexploatat". Iar John Nash a demonstrat în 1950 că astfel de strategii de echilibru Nash trebuie să existe în poker.

Desigur, nu este suficient să știi că există o strategie perfectă la poker – trebuie să știi și cum arată aceasta. Dar chiar și pentru cele mai puternice computere, găsirea unei strategii de echilibru Nash în poker a fost până acum de neatins – cu 1.326 de combinații de mâini de start, 254.251.200 de combinații posibile de cărți comunitare și puține restricții privind dimensiunile pariurilor.

Totuși, asta nu înseamnă că teoria jocurilor nu avea nimic de oferit pokerului. La început, jucătorii din noua școală au calculat strategiile de echilibru Nash în modele simplificate de poker folosind doar pixul și hârtia.

Apoi, pe măsură ce puterea de calcul a crescut, au început să folosească "solvers" de teorie a jocurilor. Aceste calculatoare online, disponibile pentru câteva sute de lire, nu erau suficient de puternice pentru a găsi un echilibru Nash într-un joc complet de poker, dar au făcut mult mai ușor să se concentreze pe strategiile de echilibru Nash în situații specifice sau în modele simple de poker. 

Jucătorii puteau introduce date esențiale (de exemplu, numărul de runde de pariere rămase, dimensiunile stivelor, cărțile comunitare, dimensiunile permise ale pariurilor, cărțile posibile pe care fiecare jucător le putea deține) și solverul venea cu strategiile de echilibru Nash adecvate. Jucătorii puteau apoi căuta modele și încerca să înțeleagă logica din spatele acestor strategii – cât de des ar trebui să parieze, ce fel de mâini ar trebui să parieze, etc.

Ce a adus teoria jocurilor în poker

Teoria jocurilor în poker a revoluționat modul în care pokerul este jucat astăzi, cele mai notabile schimbări fiind acestea:

Bluff agresiv

Poate cel mai vizibil a fost cât de des jucătorii din noua școală bluffau (adică pariau cu mâini slabe). Când jucătorii profesioniști au început să bluffeze foarte frecvent la începutul anilor 2000, erau considerați nebuni; dacă câștigau, trebuia să fie din noroc. Anterior, jucătorii credeau intuitiv că ar trebui să parieze în principal cu mâini bune și să bluffeze doar puțin.

Teoria jocurilor a arătat că această abordare era greșită, în special în stadiile incipiente ale mâinilor. În modelele de teorie a jocurilor, raportul optim între „pariuri de bluff” și „pariuri de valoare” era de obicei de aproximativ 2:1 pe flop (când trei cărți comunitare au fost distribuite și urmează încă două). Asta înseamnă că, atunci când pariezi, ar trebui să ai de două ori mai multe șanse să ai o mână slabă decât una puternică. Logica este dublă.

În primul rând, bluffingul înseamnă că adversarii tăi vor trebui să îți cheme pariurile des pentru a te opri să câștigi cu mâini slabe; de aceea vei câștiga frecvent mult atunci când ai o mână puternică. 

În al doilea rând, multe mâini cu care bluffezi pot să se îmbunătățească și să devină mâini puternice pe măsură ce sunt distribuite mai multe cărți comunitare. Asta înseamnă că poți scăpa cu bluffingul mult când mai sunt de distribuit cărți comunitare.

Joc cu puține jetoane

Când jucătorii au relativ puține jetoane, deciziile se pot reduce adesea la alegerea între a merge all-in (adică să pariezi toate jetoanele dintr-o dată) sau a renunța. Când pokerul poate fi simplificat în acest fel, teoria jocurilor oferă recomandări despre momentul exact când să mergi all-in și care mâini să le renunți. Jucătorii din noua școală au memorat intens aceste recomandări, oferindu-le un avantaj semnificativ față de rivalii care au ignorat matematica și s-au bazat pe „simțire”.

Strategii mixte

Teoria jocurilor recomandă adesea strategii mixte – alegerea aleatorie a ce să faci cu o anumită mână în unele situații – pentru a evita să devii prea previzibil. Acest lucru era deosebit de important pentru jucătorii de pe internet, unde adversarii puteau folosi software de urmărire pentru a-ți analiza jocul și a căuta puncte slabe.

Raportul bluff: valoare

Analiza realizată cu ajutorul solverelor GTO ne învață că există un echilibru perfect între numărul de bluffuri și numărul de mâini de valoare pe care ar trebui să le pariem într-o situație dată. Acest echilibru este cunoscut sub numele de raport bluff:valoare.

Raport bluff:valoare descrie numărul relativ de mâini de valoare și bluffuri pe care le avem în gamă atunci când pariem sau facem raise. De exemplu, un raport bluff:valoare de 1:2 (unu la doi) înseamnă că bluffăm de două ori mai puțin frecvent decât pariem de valoare. Alternativ, am putea spune că o treime (~33%) din gama noastră constă în bluffuri.

Având raportul perfect bluff:valoare nu doar că face dificil pentru adversar să joace împotriva noastră, ci face complet imposibil pentru adversar să construiască o contra-strategie câștigătoare. Un raport perfect bluff:valoare este echivalentul alegerii fiecărei opțiuni în „piatră, hârtie, foarfece” exact o treime din timp. Dar cum arată raportul perfect bluff:valoare? Pentru a înțelege acest lucru, trebuie mai întâi să punem bazele importante.

Un Model Simplu de Bluff GTO

Este normal să se facă anumite simplificări și presupuneri atunci când se aplică teoria jocurilor la poker. Vom folosi următoarele presupuneri comune atunci când discutăm despre rapoartele bluff:valoare.

1. Analizăm o situație de river

Conceptul de rapoarte bluff:valoare se aplică în principal situațiilor de river (ultima rundă de pariere și momentul decisiv al mâinii). Modelul pe care urmează să îl discutăm nu se aplică direct scenariilor rundelor de pariere flot, pre-flot sau turn. Vom considera o situație HU în care un jucător (agresorul) face un pariu împotriva adversarului său (apărătorul) pe river.

2. Agresorul are o gamă "perfect polarizată"

Agresorul are o gamă de pariere care constă pur și simplu din mâini de valoare și bluffuri; adică, perfect polarizată.

Notă: O gamă polarizată este alcătuită exclusiv din mâini de valoare puternice și bluffuri, fără mâini intermediare ca valoare. 

Mâinile de valoare nu pot pierde niciodată la showdown, iar bluffurile nu pot câștiga niciodată la showdown. Agresorul acționează primul (out of position) pe river.

3. Apărătorul are o gamă de bluff-catchers

Niciuna dintre mâinile din gama apărătorului nu poate bate mâinile de valoare ale agresorului la showdown. Totuși, toate mâinile din gama apărătorului vor câștiga întotdeauna la showdown împotriva bluffurilor agresorului. Apărătorul este ultimul care acționează (in position) pe river.

Termenul "bluff-catcher" se referă la o mână care poate câștiga doar dacă adversarul nostru bluffează. În contextul unei discuții GTO, un bluff-catcher va fi suficient de puternic pentru a bate toate bluffurile adversarului nostru.

Acest model prezentat, împreună cu toate presupunerile, este uneori denumit modelul de polarizare perfectă. Ia-ți un moment să te asiguri că ai o înțelegere bună a scenariului, deoarece va apărea destul de frecvent în discuțiile despre pokerul GTO.

Frecvența perfectă de buff

Atunci când folosim modelul de polarizare perfectă, raportul perfect bluff:valoare depinde în totalitate de dimensiunea pariului agresorului. Cea mai simplă metodă de a calcula frecvența perfectă de bluff pentru agresor este pur și simplu să luăm în considerare cotele potului pe care le primește apărătorul atunci când se confruntă cu un pariu. 

Ia un exemplu simplu în care agresorul pariază 100 de euro într-un pot de 100 de euro pe river cu o gamă perfect polarizată. Cât de des ar trebui să bluffeze?

Să începem prin a calcula cotele potului pe care le primește apărătorul. Apărătorul ar risca 100 de euro pentru a câștiga potul de 200 de euro. Prin urmare, el primește ~33% cote de pot la call (sau 2:1, dacă preferi raporturi). Ca agresor, ar trebui să bluffăm în același procentaj cu cotele potului oferite apărătorului: ~33% (sau o treime) din timp. Restul de ~67% (sau două treimi) din gama noastră de pariere ar trebui să fie mâini de valoare. Dacă folosim raporturi, putem spune că raportul nostru bluff:valoare ar trebui să fie 1:2 (unu la doi), care este pur și simplu raportul cotelor potului inversat.

Este imposibil ca adversarul nostru să ne exploateze dacă jucăm astfel, având în vedere situația propusă. Desigur, cunoașterea frecvenței optime de bluff nu înseamnă automat că înțelegem cum sau de ce funcționează! Să aruncăm o privire acum asupra acestui aspect.

Frecvența perfectă de buff


Cum Funcționează o Strategie Perfectă de Bluff?

Reamintește-ți că în exemplul nostru apărătorul deține un bluff-catcher, ceea ce înseamnă că va câștiga doar dacă agresorul bluffează. Gândește-te pentru un moment la următoarele întrebări: Ar trebui apărătorul să plătească pe river cu bluff-catcher-ul lor? De ce factori depinde această decizie?

Răspunsul depinde pur și simplu de cotele potului ale apărătorului. Apărătorul poate plăti profitabil dacă se așteaptă să câștige mai des decât procentajul cotelor potului lor. Hai să descompunem situația.

Cote ale potului de 2:1

Dacă agresorul bluffează mai mult de o treime din timp, apărătorul ar trebui să plătească întotdeauna, deoarece va fi +EV (profitabil) pentru el să facă acest lucru. Agresorul bluffează prea frecvent conform teoriei jocurilor. Dacă agresorul bluffează mai puțin de o treime din timp, apărătorul ar trebui întotdeauna să renunțe, deoarece plătirea va fi -EV (neprofitabilă). Agresorul nu bluffează suficient de frecvent conform teoriei jocurilor.

Totuși, dacă agresorul bluffează la frecvența perfectă, exact o treime din timp, apărătorul nu poate face nimic pentru a exploata agresorul. Doar dacă agresorul se abate de la frecvența optimă de bluff, apărătorul poate genera o contra-strategie exploatativă, în care fie plătește întotdeauna, fie renunță întotdeauna.

Următorul tabel arată cele trei scenarii posibile, împreună cu implicațiile EV (sau valoarea așteptată) a apărătorului.

Scenariul

Apărător EV

Agresorul bluffează mai mult de o treime din timp cu un pariu de mărimea potului.

Plătirea este +EV (valoare așteptată pozitivă). Renunțarea este OEV (valoare așteptată zero). Apărătorul poate maximiza rata de câștig prin a plăti întotdeauna.

Agresorul bluffează exact o treime din timp cu un pariu de mărimea potului.

Plătirea este OEV (valoare așteptată zero). Renunțarea este OEV (valoare așteptată zero). Apărătorul nu poate schimba rata de câștig ajustându-și strategia.

Agresorul bluffează mai puțin de o treime din timp cu un pariu de mărimea potului.

Plătirea este -EV (valoare așteptată negativă). Renunțarea este OEV (valoare așteptată zero). Apărătorul poate maximiza rata de câștig renunțând întotdeauna.

Poți învinge un Bluff Perfect?

Să jucăm rolul avocatului diavolului pentru un moment și să încercăm să creștem valoarea așteptată (EV) a apărătorului ajustându-i strategia. Știm că renunțarea mai frecventă nu va ajuta apărătorul, deoarece valoare așteptată (EV) a renunțării va fi întotdeauna zero. În schimb, ia în considerare valoare așteptată a apărătorului atunci când el plătește pentru a vedea dacă îi poți crește profiturile. Există două rezultate posibile care pot apărea atunci când apărătorul plătește pe river cu un bluff-catcher. Următorul este un exemplu de cum calculăm valoare așteptată a acestei situații simple de poker.

Calcularea Valorii Așteptate (EV)

Primul scenariu - Bluff-catcherul câștigă 200 de euro deoarece agresorul bluffează. Acest lucru se întâmplă o treime din timp și câștigă 66,66 euro pe mână pe termen lung.

Al doilea scenariu - Bluff-catcherul pierde 100 de euro deoarece agresorul are un pariu câștigător. Acest lucru se întâmplă două treimi din timp și pierde 66,66 euro pe mână pe termen lung.

Total Valoare Așteptată = 66,66 euro - 66,66 euro = 0 euro EV

Suma pe care apărătorul o câștigă atunci când agresorul bluffează este perfect echilibrată de suma pe care apărătorul o pierde atunci când agresorul are pariu câștigător. Am demonstrat că valoarea așteptată (EV) de a plăti pe river cu un bluff-catcher este exact 0!

Indiferent ce face apărătorul în acest scenariu, EV-ul său va fi întotdeauna zero. Chiar dacă apărătorul plătește întotdeauna, renunță întotdeauna sau variază între plătire și renunțare arbitrar, EV-ul său va fi întotdeauna zero. De obicei, exprimăm acest lucru spunând că apărătorul este indiferent între a plăti sau a renunța cu bluff-catchers. Acest lucru nu înseamnă că frecvența de plătire a apărătorului nu este importantă. De exemplu, dacă apărătorul alege să renunțe de fiecare dată, acest lucru este ceva ce agresorul poate exploata.

Sfaturi pentru Bluffing

  1. Ar trebui să pariem un amestec de bluffuri și mâini de valoare pe river. (Acest lucru este cunoscut sub numele de pariere cu o gamă polarizată.)
  2. Cu cât dimensiunea pariului pe river este mai mare, cu atât ar trebui să bluffăm mai frecvent.
  3. Pariurile de valoare ar trebui să reprezinte partea mai mare a gamei noastre, chiar și atunci când folosim dimensiuni mari.
  4. Frecvența de bluff GTO pentru agresor este aceeași cu procentajul cotelor potului oferite apărătorului.