- 【Alphago】AI(人工知能)の新戦法【master】 [無断転載禁止]©2ch.net
332 :名無し名人[sage]:2017/06/04(日) 10:20:57.96 ID:OAau0fg8 - >>323
って事は、CNNのネットワークを何種類か学習させて、合議にするやつが出てくるな。
|
- __Alpha Go vs 柯潔が意外にも接戦だった件__ [無断転載禁止]©2ch.net
109 :名無し名人[sage]:2017/06/04(日) 16:31:10.12 ID:OAau0fg8 - >>92
自己対局のイメージが間違っている。 学習しているのはポリシーネット部分。 学習というのは、ぶっちゃけ、ネットワーク内部のウェイトを計算により微調整する事。 ポリシーネットは、学習対象の他、過去に学習対象に負け越したものが一杯プール されていて、それらが対戦相手となる。自己と対戦し続けているわけではない。 最初に学習対象のネットワークを用意したら、それのコピーをプールに入れる。 その2つで対戦させて強化学習。勝ち越しの閾値を超えたら、学習対象のコピーを プールに追加して、2つのネットワークとランダムに対戦させる。勝ち越し閾値を超え たら、同様にコピーをプールに追加して、3つのネットワークとランダムに対戦させる・・・。 コピーをプールに追加するのを世代と呼ぶ。 最初の論文で、10000世代まで強化学習させたと書いてあったはず。 最初の一番弱い奴までプールに入れてあるのは、>>92で言うところの自己対戦に よる過学習を防ぐためのもの。対戦相手の多様性を保つための工夫。 また、ε-greedyを採用して、学習対象のネットワークは、一定確率で敢えてランダム に手を着手して、今の手が最善なのか、違うかを確認している。これも過学習防止策。 これらは特別なアルゴリズムでもなければ、「特定の弱点を修正するための方法」は 大抵、別の大きな弊害をもたらす事から、そういう付け焼刃な対処をしていないと、 考えるのが自然。
|
- コンピューター囲碁ソフトについて語るスレ51 [無断転載禁止]©2ch.net
157 :名無し名人[sage]:2017/06/04(日) 16:38:14.34 ID:OAau0fg8 - >>150
エキスパートシステム的なノウハウ重視処理で重箱の隅をつついて、少しづつ 強くする方から、汎用的かつ強化学習的な方法に移行する事ができたというのは、 正しい梯子と呼んで構わないかと思う。 ハサビス的には、一つの答えにたどり着いたから、後は何年間強化学習し続ける かだけの話になっちゃったんだと思う。もし、ネットワークの表現力が不足している なら、ネットワークの深さを深くして、強化学習やり直せばよい。後、どれくらいの そういう時間を要する作業があるかわからないけど、少なくともそれを続ければ、 いつかは頂上にたどり着くと、確信しているんだと思う。今回は、途中で強さの向上 が頭打ちにならないというか、頭打ちになったら、そこが囲碁の究極だと。 同時に、後は、マシンパワーと時間と根気勝負になっちゃって、革新的な改良は 残っていないという判断なんだと思う。
|