AlphaZero Shogi の開発ネタ3

AlphaZero将棋の論文を解読している方のブログを見た感想で、

AlphaZero開発者の人と同じ意見だなと思ったところをピックアップPart 3

モンテカルロ木探索(MCTS)


■思考時間を増やした場合、αβ探索よりもモンテカルロ木探索(MCTS)が優れているらしい

このことについて、各将棋ソフト開発者関係は驚きの声をあげているようです。

私からすれば何で驚くのか分かりません。

私は将棋の定跡を作成するにあたって、

αβ探索とモンテカルロ木探索(MCTS)の両方を使っているからです。



将棋の「戦法」はαβ探索と相性が良い。

将棋の「戦法定跡」はモンテカルロ木探索(MCTS)と相性が良い。

戦法は「将棋の戦型」で、αβ探索のような理詰めで考えないと、一瞬で潰されます。

戦法定跡は「駒のぶつかりの連鎖」で、長手数抜けたときの形勢を考えるので、

報酬が100%を上回る考え方をする、モンテカルロ木探索(MCTS)と相性が良い。

こういった性質を持っているので、何で別々にどっちが良いとか考えること自体不思議です。

両方使えば良いんじゃないの?


■AlphaZero将棋の論文は正しいか?

半分正解で半分間違いですね。

わざとにミスリードさせているのか、本気で分かってないのか知りませんが、

将棋の探索においては、

αβ探索 > モンテカルロ木探索(MCTS)

となります。

半分正解と言ったのは、私が2017年5月30日に他の将棋ソフト開発者方々と

開発交流させて頂いたときに私が説明したのですが、

---------------------------------------------------------------------
①初手~16手目までは意図的に悪手を指さない限り、悪手は存在しない(完全に互角である=千日手ルートが存在する)
②完全に互角である局面からは、20手は互角の局面が続く(千日手ルートがまだ存在する)
③つまり16手+20手=36手目までお互いがベストを尽くせば、本当の意味で互角(千日手ルートが存在する)
④初手~70手目の間において、千日手ルートを選択しなかった場合は勝敗が決するルートが発生する

上記4点が定跡を作成していて私が気が付いた点で、おおむね勝敗が決するルートが98%で千日手ルートが2%程度ではないかと考えています。

そして初手~70手目の間において、勝ちルートを拾えたほうが格段に指しやすくなり、R4000の領域だと勝率75%を超えます。
※100%にならないのは勝ちルートにも、ギリギリ勝てる~楽勝で勝てるまでの差が有り、現時点のR4000クラスであればということです。
※ギリギリ勝てるルートだとしても格段に指しやすい局面になり、反対に相手は指しにくい局面になりますので、思った以上に有利になります。

よって定跡によるアシストは70手目までの整備で、相手をその戦型に引き込むことが出来ればR+200程度となります。

なので、定跡進行の将棋をおおざっぱに局面分割すると下記のような状態になるかと。
序盤・・・初手~36手目(手損手得の計算が大きく影響する)
中盤前半・・・千日手ルートから外れた局面~70手目間でどちらかが勝ちルートを拾った局面(評価値計算の精度が大きく影響する)
中盤後半・・・どちらかが勝ちルートを拾った局面~寄せの局面(評価値計算の精度が大きく影響する)
終盤・・・寄せの局面~詰みまで(手損手得の計算が大きく影響するが、R4000クラスならほぼ逆転は無い)

また、上記のように初手~36手目までは定跡進行だと千日手ルートが存在するので、評価値は0が将棋的には正解になります。
●これを知っていなければ、偶然以外で強い将棋ソフトは作れません。

なぜなら、正解は0だと知っていながら0ではない値の評価関数を作らないといけないから。
(哲学めいて聞こえるかもしれませんが、現在のKPPT型の特徴量ではすべての千日手を見つけることが不可能だからです)

正解を知らずに機械学習をするということは、結局のところ数の暴力に頼った偶然を見つける行為と同義だからです。
---------------------------------------------------------------------

このように説明しました。

要は、上記に書いた通り「千日手」が問題になってきます。

AlphaZero Shogi の開発ネタ1で書いたように、

私と、AlphaZero開発者はどちらも「千日手」に対してアプローチしているからです。

なので、AlphaZero開発者が論文で言ってるのは、

ただのαβ探索 < モンテカルロ木探索(MCTS)+千日手問題を正確にアプローチ

となって、私は千日手問題を正確にアプローチしたαβ探索で学習したので、

αβ探索 > モンテカルロ木探索(MCTS)

こうなりますよと言ってるだけです。

この記事へのコメント

スポンサーリンク