【超上級編】GTO part2 〜混合戦略と純粋戦略〜

 

実際にGTOを見てみよう!

さて、前回はナッシュ均衡・エクスプロイト・GTOとは一体どんなものなのか、ざっくりと説明したよ。今回は具体的なGTOを一緒に見てみようか。

どんなGTOにするの?

プリフロップのBU vs BBにしようかな。BUがオープンしてSBがフォールド、そこでBBのGTOは?っていうスポットだね。すごくよくあるスポットだから、どんなGTO戦略なのか気になるんじゃない?

なるなる!

まずは場面設定を紹介するね。

  • スタックサイズはBU、BBともに1000(100bb)
  • BUのオープンサイズは35(ポットレイズ)
  • 3ベット、4ベット、5ベットのサイズはそれぞれ125、290、1000
  • 今回はPioCloudのプリフロップソリューション(レーキ3.5%14Cap)を使用

BUはどんなレンジでオープンしたの?

今回はこんなオープンレンジ(VPIP40)を想定したよ。

f:id:Poker_JAWS:20200524023813p:plain

これでGTOを計算する材料はすべてそろったね。さあ、これがBBのGTO戦略だよ。

f:id:Poker_JAWS:20200524023917p:plain

青がフォールド、緑がコール、赤がレイズ(3ベット)だよ。BBはこんなふうにプレイすれば、BUからエクスプロイトされることはないんだ。
例えば、A7oは青一色だから常にフォールドすべきみたいだね。TTは赤一色だから常に3ベット。
A5sは赤と緑が混じってるから、レイズでもコールでも良いんだってさ。でも、緑より赤のほうが幅が大きいから、3ベットをより頻繁にすべきみたいだよ。

へー。ふーん。・・うん。

やっぱ初めて見るとそういうリアクションになるよね。どう?何がわかんない?

なんかアクションが混じってるハンドがいっぱいあって、見てるとモヤモヤするなあ。もっと「このハンドは絶対こう!」ってパキッと教えてくれるのかと思ってたよ。

その複数のアクションが混じっているハンドが今日の本題なんだ。これを混合戦略っていうんだよ。逆に一つの色で塗られてるところは純粋戦略

混合と純粋かあ。ねえ、どうしてこんなふうに戦略が分かれてるの?

OK。次の章で詳しく説明していくね。

 

混合戦略ってなんなの?

さて、混合戦略と純粋戦略をどう考えればいいのか。ここではジャンケンを使って説明してみようかな。

グー・チョキ・パーのジャンケンだよね?

そうそう。チンアナゴちゃん、もしジャンケンでグーばっかり出す人がいたらどうする?

そりゃあ、こっちはパーをたくさん出すのがいいんじゃない?

うん、そうすれば相手をエクスプロイトできそうだよね。
でも、相手はチンアナゴちゃんの戦略を察知して、今度はチョキを多めに出してくるかもしれないよ。

じゃあ、私はグーを多めに出せばいいのかな。そうすると相手もそれに合わせて出す手を変えてきて・・・最終的にはグー・チョキ・パーを1/3ずつの割合で出すようになる気がする。あ、これがナッシュ均衡?

そう、それがジャンケンのナッシュ均衡で、混合戦略になってるんだね。
お互いにグー・チョキ・パーを1/3ずつの割合で出せば、相手にエクスプロイトされることはないんだ。

うん、直感的にはわかるんだけど・・・もっと詳しい説明が欲しいなあ。
ねえ、そもそもどうして混合戦略になるの?

一言で言えば、ジャンケンには手の相性があるからだよ。グーはチョキに勝てるけどパーには負けるみたいにね。
「グーしか出さない」みたいな戦略は相手にパーばかりを出される(手の相性をうまく利用される)から、エクスプロイトされてしまうんだ。

うん、そりゃそうだ。

逆に言えば、ジャンケンにエクスプロイトされないような戦略(ナッシュ均衡)があるのなら、それは必ず複数の手を混ぜて出すようになってるはずなんだ。そうじゃないと、手の相性を利用したカウンター戦略を必ず使われちゃうからね。

ということで、ナッシュ均衡にはそもそも混合戦略が必要不可欠なんだね。ジャンケンやポーカーのようなゼロサム・ゲームの場合は特にね。

 

混合戦略の最大のポイントは期待値!

さて、今までの話は入り口で、ここからが本題なんだ。混合戦略で一番大事なポイントだよ。

なになに?

混合戦略と期待値の関係だよ。part1で僕はナッシュ均衡をこう定義したんだ。
互いのプレイヤーが戦略を変更してもそれ以上期待値を上げることができない状態・あるいはその戦略の組み合わせのこと」。

うん、その「戦略を変更して期待値を上げること」を「エクスプロイト」っていうんだよね。

そのとおりだよ。だからこそナッシュ均衡は「エクスプロイトされない戦略の組み合わせ」になってるんだったね。

さて、じゃあ実際のところ、ナッシュ均衡に基づいた混合戦略を使ったとき、相手の戦略の期待値はどうなってるんだろう?
もちろん相手はいろいろな戦略を持ってるはずだけど、「戦略を変更してもそれ以上期待値を上げることができない」のだから、相手の戦略はすべて期待値が同じになってるんだよ。ここが重要なポイントなんだ。

うーん?ピンとこないなあ。ジャンケンで説明してみてよ。

OK。ジャンケンの戦略とはすなわち「グー・チョキ・パーの手を出す頻度」のことだよね。例えば、「グーしか出さない」「チョキ多め」とかね。

うんうん。

それらの戦略と混合戦略(グー・チョキ・パーが1/3ずつ)が戦うことを考えてみようか。例えば、「グーしか出さない」戦略vs混合戦略の期待値はどうなってるだろう?

えっと、「グーしか出さない」vs「1/3ずつグー・チョキ・パー」だよね?ってことは、グーしか出さない人は3回に1回はチョキに勝って、3回に1回はグー同士であいこ、3回に1回はパーに負けるはずだよ。

そのとおりだね。例えば勝ちを1点、負けを-1点、あいこはやり直し(0点)と考えるなら、「グーしか出さない」の期待値は1/3*1+1/3*0+1/3*(-1)=0なんだ。

お、ちょうどきれいにゼロになるんだね。

じゃあ次はこれ。2回に1回はチョキ、4回に1回ずつグーとパーを出す「チョキ多め」の戦略だとどうかな?混合戦略と「チョキ多め」が戦ったときの期待値を考えてみよう。
場合分けが多いから期待値を表にしてみたよ。

f:id:Poker_JAWS:20200524024224p:plain

ふむふむ。この表の数字を全部足してやれば「チョキ多め」の期待値が出るんだね。・・・ってあれ?これも全部足したらゼロになるよ?

そうなんだよ。混合戦略に対してどんな戦略を使っても、期待値は同じ(この場合はゼロ)になるんだ。*1

f:id:Poker_JAWS:20200524024229p:plain

そっか、これがジョーズくんが言ってたことなんだね。
ねえ、じゃあさ、相手に混合戦略を使われたらどうすればいいの?

相手がナッシュ均衡に基づいた混合戦略を使ってるなら、それに対してこちらはどんな戦略を使っても期待値は一緒なんだよね。だったら、こちらも混合戦略を使うしかないんじゃないかな。
どうせ期待値は一緒だけど、そのほうがエクスプロイトされる心配がないからね。

ふーむ、お互いが相手の戦略の期待値を全部一緒にしちゃうような混合戦略を使うってことか。まさに「均衡」なわけね。

f:id:Poker_JAWS:20200524024234p:plain

たくさん説明したから、ここで一旦まとめておこうかな。こんな話をしてきたよ。

 

GTOの特徴(2)

  • ナッシュ均衡(GTO)は適切な割合・頻度に基づいた混合戦略を必ず採用する。
  • 適切な割合・頻度に基づいた混合戦略は、相手の戦略の期待値をすべて等しくしてしまう。
  • ナッシュ均衡では、互いの混合戦略が相手の戦略の期待値をすべて等しくしてしまうので、互いのプレイヤーは戦略を変更することでそれ以上期待値を上げることができない。=ナッシュ均衡の定義の言い換え

 

ねえねえ、じゃあポーカーの混合戦略はどうなってるの?

そうだね、そろそろポーカーの話もしないとね。さっきのGTO戦略の混合戦略を一つピックアップしてみようか。

f:id:Poker_JAWS:20200524024239p:plain

A5sは赤(3ベット)と緑(コール)の混合戦略だったね。右下に書いてある数字がそれぞれのアクションの期待値(EV)なんだ。0.01のズレがあるのは計算上の誤差だよ。

3ベットとコールの期待値がほとんど同じになってるね。

混合戦略は相手の戦略の期待値を等しくするんだったね。A5sを常に3ベットやコールに回しても、それ以上期待値を上げることができないんだ。なぜなら、相手(BU)もGTO戦略に基づいた混合戦略を使っているからね。

逆に言えば、3ベットもコールも期待値は同じなんだから、プレイヤーはどちらを選択してもいいんだ。
ただし、3ベットを選択したほうが分散が大きくなることと、厳密には混合戦略の頻度を正確に再現する必要があることには注意だよ。

ふむふむ。ポーカーの混合戦略ではアクションの期待値が一緒になっちゃってるんだね。

 

じゃあ純粋戦略ってなんなの?

ねえ、じゃあ純粋戦略はどうなってるの?

純粋戦略もジャンケンで説明してみようか。
実はね、ジャンケンにはグー・チョキ・パーのほかに第4の手があるんだ。

えっ、そうなの?

うん、僕が今考えたんだ。「ピン」といって、ピン芸人なんかの「ピン」=「1」がその由来だよ。グー・チョキ・パー・ピンと覚えてね。

f:id:Poker_JAWS:20200524024243p:plain

どうでもええわ!それで?ピンはグー・チョキ・パーのどれに勝つの?

ピンはグーには勝つけど、チョキとパーには負けるんだ。

f:id:Poker_JAWS:20200524024249p:plain

ピン、弱ッ!

そうなんだよ。さて、グー・チョキ・パー・ピンのナッシュ均衡を考えてみようか。

えっと、今度はグー・チョキ・パー・ピンを1/4の割合で出して・・・あ、でも、そっか。そもそもピンを出すとエクスプロイトされちゃうのか。

そうなんだよ。ピンとパーはどちらもグーに勝てる手だけど、パーのほうはピンに一方的に勝てるからね。だからピンはパーの下位互換なんだ。
だから、どんな割合だろうとピンを出す相手に対しては、グーを少なめにしてパーとチョキを増やせばエクスプロイトできそうだよね。

ということは、ナッシュ均衡ではピンを出しちゃダメってこと?

そういうことだよ。ナッシュ均衡は必然的に混合戦略になるって話をさっきしたよね?でもね、中にはそもそもその戦略を取るor取らないこと自体がエクスプロイトされる原因になるようなケースもあるんだ。そういう場合はエクスプロイトされないほうの選択を常に取ることになるよね。それを純粋戦略というんだ。

ふむふむ。例えば手の相性が一方的に悪かったり、期待値が明らかに低い戦略は、そもそも混合戦略の仲間にすら入れてもらえないってこと?

まさにそういうことだよ。出来の悪いピンを入れるとエクスプロイトされてしまうからね。万年補欠でいてもらうことになるんだ。
でもね、その逆もあり得るんだよ。つまり、混合戦略を取るよりも常にその手を出すほうが期待値が高いような場合だね。
これはポーカーの純粋戦略も同じだよ。ほら、これを見てごらん。

f:id:Poker_JAWS:20200524024254p:plain

TTは3ベットが100%の純粋戦略だよ。ポーカーの純粋戦略は最も期待値が高いアクションが一つだけだよ。TTは常に3ベットしないと、相手にエクスプロイトされてしまうんだ。

ほんとだ。TTのアクションの期待値(EV)は3ベットが一番高いね。

もう一つ見てみようか。今度は純粋戦略でフォールドすべきハンドだよ。

f:id:Poker_JAWS:20200524024258p:plain

今度はフォールドが一番期待値が高いんだね。これがかわいそうなピンってことか。

そういうこと。A7oは常にフォールドすべきで、プレイするとエクスプロイトされてしまうんだね。

ふーむ、さっきのジャンケンだと混合戦略と純粋戦略のイメージがついたけど、ポーカーだとどのハンドがどんな戦略になってるのか、全く想像つかないね。

そうだよね。ジャンケンぐらい簡単なゲームだと「あ、ピンは出したらダメだ」ってすぐにわかるんだけどね。それに比べて、ポーカーはものすごく複雑なゲームなんだ。GTO計算機の力を借りないと、何がピンなのかすらわからないのさ。

さて、最後にもう一度GTOについてまとめておこうかな。

 

GTOの特徴(3)

  • 純粋戦略とは、割合・頻度によらずその戦略を取るor取らないことがエクスプロイトをされる原因になるような戦略において、エクスプロイトされないほうの選択を取ること。
  • ポーカーの混合戦略では、最も期待値の高いアクションが複数存在する。
    =どのアクションを選んでも期待値は同じ。ただし、ベットやレイズをするほうが分散は大きくなる。
  • ポーカーの純粋戦略では、最も期待値の高いアクションが一つだけ存在する。
    =ほかのアクションの期待値がマイナスで、フォールド(EV=0)を選ぶ場合もある。

 

ふむ、ちょっとずつGTOのことがわかってきたよ。でも、GTOってほんとに役に立つのかなあ?そもそも実戦でどう使えばいいんだろ?

OK。じゃあ次回はGTOを実戦で使うときに必要な知識について触れようかな。特に混合戦略の頻度・エクスプロイトについてだね。

よーし、part3へ続くッ!

 

*1:このように、適切な混合戦略を用いることで相手の戦略の期待値を等しくしてしまうことをゲーム理論では"indifferent"(無差別・無関係)といいます。互いが相手の戦略を無差別化することで初めてナッシュ均衡は成立します。(ただしゼロサム・ゲームに限る)

PAGE TOP