- コンピューター囲碁ソフトについて語るスレ50 [無断転載禁止]©2ch.net
203 :名無し名人[sage]:2017/04/02(日) 09:06:47.27 ID:wOD+ok9e - 評価関数だけでレーティング上がるとか、いまだに信じられないんだけどなぁ。
|
- コンピューター囲碁ソフトについて語るスレ50 [無断転載禁止]©2ch.net
207 :名無し名人[sage]:2017/04/02(日) 09:15:20.84 ID:wOD+ok9e - >>204
だって学習が進むにつれて、重箱の隅みたいな状況に対する対応を学ぶ事になるわけだぜ。 出現頻度もレアだろ。 そんなの学習しながら、線形以上のペースでレーティングがあがるとか、詐欺にしか思えない。
|
- コンピューター囲碁ソフトについて語るスレ50 [無断転載禁止]©2ch.net
221 :名無し名人[sage]:2017/04/02(日) 15:51:42.49 ID:wOD+ok9e - 構造と処理の重さが想像つくなら、実行時間のボトルネックになっているのは
プレイアウトではなく、UCBに対する重み付けのポリシーネットと、プレイアウトに 荷重平均されるバリューネットの計算である事はわかるはず。
|
- コンピューター囲碁ソフトについて語るスレ50 [無断転載禁止]©2ch.net
222 :名無し名人[sage]:2017/04/02(日) 19:56:57.73 ID:wOD+ok9e - >>220
PC1台で強いって事は、ディープラーニングの非同期計算待ちの間、 代わりに使用している、単純な線形ソフトマックスなポリシーネットだけで そんくらいのレートまで行くと言っているようなものじゃないかと。 だって、PC1台じゃ、明らかに計算間に合わないよ。 計算間に合わないと、キューに留まっている間に、どんどんツリー展開が 進んで、結局ディープ版のポリシーネットの値は使わないという事になる。 そして、キューに溜まっている間は、UCBの定数Cを動的に減らして、下位 枝にプレイアウトを割り振らないようになっていくから、余計に線形ソフト マックスなポリシーネットの性能に依存するようになるはず。 つまりディープラーニングで改善するレートは200程度と。
|
- コンピューター囲碁ソフトについて語るスレ50 [無断転載禁止]©2ch.net
224 :名無し名人[sage]:2017/04/02(日) 20:30:03.36 ID:wOD+ok9e - とすると、分散しているのは、
1.40CPUでUCTのプロセスを並列探索 2.1700強のGPUでディープラーニングの計算 というわけなので、ディープラーニングはおろか、プレイアウト回数すら減少する ので、ますます線形ソフトマックスなポリシーネットへの依存が高まる。
|