開発ネタ5

「110億局面」学習過程


学習50億局面程度で「Windows」アップデータが炸裂してエラー。

最悪。やり直しとなりました。

リテイク


今度は3分割にして「LANケーブルを引っこ抜いて」学習開始

YaneuraOu-2017-early-sse42-4.74.exe threads 10 , hash 512 , evaldir eval_zero_epoch0 , evalsavedir new_eval , evalshare false , learn save_only_once batchsize 1000000 eta 24 lambda 0.33 shuffled_sfen3.bin

出来上がった「epoch1」
 ・depth1絞り
 ・悪手減算法
 ・2画面超高速レート測定
を使って「手動」で評価関数パラメタを調整

34億局面程度だけど、だいたいこんな感じ。
(まふ互角局面ver2を使用)

2017-12-19.jpg

「tanuki- sdt5」に少し勝ち越す程度なので、
残りの2つ学習で「Apery- sdt5」と同等までいけそう。

※「Apery- sdt5」は学習局面が狭くて、学習不足の穴が大きい
※「やね110億局面」は学習局面が広くて、学習不足の穴が大きい
この辺の調整にコツがいる感じ。

続き


YaneuraOu-2017-early-sse42-4.74.exe threads 10 , hash 512 , evaldir eval_zero_epoch1 , evalsavedir new_eval , evalshare false , learn save_only_once batchsize 1000000 eta 24 lambda 0.33 shuffled_sfen2.bin

出来上がった「epoch2」
 ・depth1絞り
 ・悪手減算法
 ・2画面超高速レート測定
を使って「手動」で評価関数パラメタを調整

2017年12月20日
「Windows10」の謎のロック画面でエラー。
(ロック画面関係は全部OFFにしてたのに何故かロック)
これで3日分が飛んだことになる。
さすがに次、エラーが出たら学習止めようかと思うくらいに「Windows10」が心を折りに来ている。

2017年12月21日
学習終了
合計で70億局面程度

epoch2.jpg

だいたい「Apery- sdt5」と同等。

※絞っただけだとすごいレートが落ちた。
「shuffled_sfen3.bin」寄りに評価値を戻すとかなりレートが戻った。
たぶん「shuffled_sfen2.bin」は勝敗項がおかしいと思う。

ラスト


YaneuraOu-2017-early-sse42-4.74.exe threads 10 , hash 512 , evaldir eval_zero_epoch2 , evalsavedir new_eval , evalshare false , learn save_only_once batchsize 1000000 eta 24 lambda 0.33 shuffled_sfen1.bin

出来上がった「epoch3」
 ・depth1絞り
 ・悪手減算法
 ・2画面超高速レート測定
を使って「手動」で評価関数パラメタを調整

2017年12月22日
学習終了

1223.jpg

前回と棋力はほとんど変わっていない。
引き分け率が増えているので「Apery- sdt5」により近づいたかな?とは思う。

※「まふ互角局面ver2」を使用したレート計測なので、検討に重要な中盤力の比較。
初手から定跡OFFの計測はしていないので、序盤はどんな動きをするか分かりません。
(私は定跡を使うことが当たり前なので、定跡OFFの動きにあまり興味がない)

総評


1222ste.jpg

1)「eta24」でもまだ人間の感覚より評価値が大きいと思う
  (絞った後に10%程度、評価値を減算している)

2)上記より複数回絞る場合は「eta24」で「lambda 0.5」程度が適切と感じる。

3)「shuffled_sfen2.bin」の勝敗項がおかしいと思った。
  36億局面もあって、これだけ違うベクトルを出すってことは、教師局面が広すぎると感じる。
  depth10でかなり広がっていることと、KPPT型の2億個のパラメタ量で受け止めることの出来る量を考えると、ランダムムーブはかなり減らすか不要とすら感じる。

4)上記よりランダムムーブを使わずに「まふ互角局面ver2」を使用した教師局面生成を提案する。
  これはR4000程度の様々なソフトが互角と考える1000局面程度に分岐するので、単純にこれらの局面から分岐していく局面を正しく優劣を付けれるだけでもR4100程度が期待出来ると考える。

評価を実施



こちらで実際に対局した評価を行いました。

この記事へのコメント

スポンサーリンク