- 【オセロ,将棋】ボードゲーム Part2【囲碁,War】
350 :310[sage]:2018/05/03(木) 20:31:46.75 ID:EAR7zekO - なんか順調でうらやましい。
俺もやっぱGPU付きのPC買うべかな。 一般的にLRでは、学習率は発散しない限界まで大きくするのが良いらしく、 昔は、最初大きく、試行回数増えるごとにだんだん小さくみたいな事をしてました。 NNではRMSPropとかADAMとかで自動調整する流れだと当時理解していました。 ただ、Googleの論文読むと、普通に学習率固定っぽく読めてしまうんですよね。 強化学習だと学習率固定が良いのかも知れません。 表現力大きいからあんまり問題ない気がするのですが、学習率は小さくすると 学習に時間がかかる代わりに、収束しやすくなります。局所解には陥りやすく なるのではないかと愚考しますが、強化学習における局所解と、教師付学習に おける局所解は現象が違うから、よくわかりません。
| - 【オセロ,将棋】ボードゲーム Part2【囲碁,War】
351 :310[sage]:2018/05/03(木) 20:37:19.91 ID:EAR7zekO - こちら、例によってひたすら分岐付き記譜を作成しています。
空きマス27の所(完全読みとしては26)のところから、計算時間が案の定すごく かかるようになってしまって、遅々として進まなくなりました。 最後の手段でとっておいた、UCT探索で仮PV作成し、それでmtd(f)にて評価値を 迅速に確定して、その評価値で正しいPVを求めるという流れにしたところ、恐らく 数倍程度に高速化され、それによって記譜が集まり正確になる事で、評価関数の 精度が上がって、仮PVが正確になりという好循環に、ようやく入る事ができました。 ただ、それでもまだ時間はかかるというか、今空きマス28まで持っていったら、 また時間がかかる地獄に入りそう。最低でも空きマス30までは持っていきたい。 つか、待っている時間が長い…セカンドPCが欲しい。
| - 【オセロ,将棋】ボードゲーム Part2【囲碁,War】
352 :310[sage]:2018/05/03(木) 20:41:41.51 ID:EAR7zekO - >>351
>数倍程度に高速化され あくまで仮PVが数手分合っている時の話で、仮PVが間違っていると、 むしろ遅くなる可能性があります。 あと、一つの局面に対し、最善手が複数あるケースでは、例えば最善手 が2つあると2倍程度時間がかかるという問題があるのは認識していて、 対策は可能なのですが、そうするとバグった時にβカットのエラーを吐か ないという恐ろしい状態になってしまうので躊躇しています。
|
|