AlphaZero Shogi の開発ネタ2

AlphaZero将棋の論文を解読している方のブログを見た感想で、

AlphaZero開発者の人と同じ意見だなと思ったところをピックアップPart 2

評価のステップ省略


■AlphaZero開発者が評価のステップを省略しても学習出来たことが意外に感じる人が多いようです

これ、私には理解しがたい感覚なのですが、何で意外なんでしょうか?

2017年7月4日に過去開発していたGitHib記事の

「まふ評価関数の作り方(まとめ?)」にも書いてたんですけど、

-----------------------------------------------------------------------
やねepoch0からスタート

今やっているのは「まふ定跡」ver1からver11までを学習させています。
元々、前verの悪い所を直しながら作っているので、それを追体験させている感じです。
そのままだとさすがに局面が狭いので、7六歩25%、2六歩25%、中飛車10%、四間飛車10%、その他30%くらいに定跡を70手まで使用で任意に散らしています。

要はdepth3×1億局面生成を11回実施
途中レート計測はせずに5回連続とかでやって、4回目と5回目を比較して5回目が強かったらそのまま続行とかで時間削減
-----------------------------------------------------------------------


こんな感じで私は最初から評価ステップを飛ばして学習しても、普通に学習出来ると思っていたし、

なんとかちゃんねるでも「定跡学習したら弱くなった」とか言ってる人いたので、

開発交流させて頂いた人達へは


-----------------------------------------------------------------------
「定跡学習」で失敗したと思っている人

定跡学習に限らず学習精度の悪かった局面は最低2回学習が必要
当たり前だけど、1回目学習して「この局面は良さそう」とパラメタ上昇⇒2回目の教師生成でその指し手周辺がたくさん生成され学習出来る

このように上手くやっても最低2ステップ必要なのに、1回で定跡を使って弱くなったと言う人が多いように見える。

たとえ定跡学習1回目でレートが下がろうが、狙った動作をするようになったのなら成功で、その評価関数から教師生成する。
-----------------------------------------------------------------------

と、補足説明したことがあります。


例えばこれが「ビジネス」の世界であれば、

しっかりと目標を掲げて順調に成長している会社へ、

ちゃんと評価出来る力があるのかも疑わしい出資者がしょっちゅう現れ、

前のバージョンとの勝率だけ見て

「前期比で全然成長してないね?全員解雇!やり直し!」

とか言っちゃう感じでしょ?

正直、私には理解しがたい感覚です。



機械学習の世界で言えば、この手の人は

「ドメイン知識」が全然足りていないんだと思います。

これは批判しているわけではなく、

機械学習のあるあるネタで、

アイドルが好き過ぎて、アイドルについて機械学習始めたおっさんが、

AIより自分が詳しくなっちゃって、

1000人のアイドルの顔を瞬時に識別出来るようになったとか。

こんな感じで、その物事の本質=「ドメイン知識」を取得したりするので、

まだその領域に達していないうちは、あまり余計なことはするなってことでしょう。



AlphaZeroは何も知らないから強くなったのではなく、

その物事の「ドメイン知識」が全然足りていない人間が、

余計なことをしなかったから強くなったんだと思います。

この記事へのコメント

スポンサーリンク