トップページ > 囲碁・オセロ > 2017年06月04日 > OAau0fg8

書き込み順位&時間帯一覧

13 位/172 ID中時間01234567891011121314151617181920212223Total
書き込み数0000000000100000200000003



使用した名前一覧書き込んだスレッド一覧
名無し名人
【Alphago】AI(人工知能)の新戦法【master】 [無断転載禁止]©2ch.net
__Alpha Go vs 柯潔が意外にも接戦だった件__ [無断転載禁止]©2ch.net
コンピューター囲碁ソフトについて語るスレ51 [無断転載禁止]©2ch.net

書き込みレス一覧

【Alphago】AI(人工知能)の新戦法【master】 [無断転載禁止]©2ch.net
332 :名無し名人[sage]:2017/06/04(日) 10:20:57.96 ID:OAau0fg8
>>323
って事は、CNNのネットワークを何種類か学習させて、合議にするやつが出てくるな。
__Alpha Go vs 柯潔が意外にも接戦だった件__ [無断転載禁止]©2ch.net
109 :名無し名人[sage]:2017/06/04(日) 16:31:10.12 ID:OAau0fg8
>>92
自己対局のイメージが間違っている。

学習しているのはポリシーネット部分。
学習というのは、ぶっちゃけ、ネットワーク内部のウェイトを計算により微調整する事。

ポリシーネットは、学習対象の他、過去に学習対象に負け越したものが一杯プール
されていて、それらが対戦相手となる。自己と対戦し続けているわけではない。

最初に学習対象のネットワークを用意したら、それのコピーをプールに入れる。
その2つで対戦させて強化学習。勝ち越しの閾値を超えたら、学習対象のコピーを
プールに追加して、2つのネットワークとランダムに対戦させる。勝ち越し閾値を超え
たら、同様にコピーをプールに追加して、3つのネットワークとランダムに対戦させる・・・。
コピーをプールに追加するのを世代と呼ぶ。

最初の論文で、10000世代まで強化学習させたと書いてあったはず。

最初の一番弱い奴までプールに入れてあるのは、>>92で言うところの自己対戦に
よる過学習を防ぐためのもの。対戦相手の多様性を保つための工夫。

また、ε-greedyを採用して、学習対象のネットワークは、一定確率で敢えてランダム
に手を着手して、今の手が最善なのか、違うかを確認している。これも過学習防止策。

これらは特別なアルゴリズムでもなければ、「特定の弱点を修正するための方法」は
大抵、別の大きな弊害をもたらす事から、そういう付け焼刃な対処をしていないと、
考えるのが自然。
コンピューター囲碁ソフトについて語るスレ51 [無断転載禁止]©2ch.net
157 :名無し名人[sage]:2017/06/04(日) 16:38:14.34 ID:OAau0fg8
>>150
エキスパートシステム的なノウハウ重視処理で重箱の隅をつついて、少しづつ
強くする方から、汎用的かつ強化学習的な方法に移行する事ができたというのは、
正しい梯子と呼んで構わないかと思う。

ハサビス的には、一つの答えにたどり着いたから、後は何年間強化学習し続ける
かだけの話になっちゃったんだと思う。もし、ネットワークの表現力が不足している
なら、ネットワークの深さを深くして、強化学習やり直せばよい。後、どれくらいの
そういう時間を要する作業があるかわからないけど、少なくともそれを続ければ、
いつかは頂上にたどり着くと、確信しているんだと思う。今回は、途中で強さの向上
が頭打ちにならないというか、頭打ちになったら、そこが囲碁の究極だと。

同時に、後は、マシンパワーと時間と根気勝負になっちゃって、革新的な改良は
残っていないという判断なんだと思う。


※このページは、『2ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の2ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。