必死チェッカーもどき囲碁・オセロ > 2017年06月04日

トップページ > 囲碁・オセロ > 2017年06月04日 > OAau0fg8

書き込み順位＆時間帯一覧

13 位/172 ID中	時間	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	Total
13 位/172 ID中	書き込み数	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	2	0	0	0	0	0	0	0	3

使用した名前一覧	書き込んだスレッド一覧
名無し名人	【Alphago】AI(人工知能)の新戦法【master】 [無断転載禁止]©2ch.net ＿＿Alpha Go　vs　柯潔が意外にも接戦だった件＿＿ [無断転載禁止]©2ch.net コンピューター囲碁ソフトについて語るスレ51 [無断転載禁止]©2ch.net

書き込みレス一覧

【Alphago】AI(人工知能)の新戦法【master】 [無断転載禁止]©2ch.net
332 ：名無し名人[sage]：2017/06/04(日) 10:20:57.96 ID:OAau0fg8: >>323
って事は、CNNのネットワークを何種類か学習させて、合議にするやつが出てくるな。

＿＿Alpha Go　vs　柯潔が意外にも接戦だった件＿＿ [無断転載禁止]©2ch.net
109 ：名無し名人[sage]：2017/06/04(日) 16:31:10.12 ID:OAau0fg8: >>92
自己対局のイメージが間違っている。

学習しているのはポリシーネット部分。
学習というのは、ぶっちゃけ、ネットワーク内部のウェイトを計算により微調整する事。

ポリシーネットは、学習対象の他、過去に学習対象に負け越したものが一杯プール
されていて、それらが対戦相手となる。自己と対戦し続けているわけではない。

最初に学習対象のネットワークを用意したら、それのコピーをプールに入れる。
その２つで対戦させて強化学習。勝ち越しの閾値を超えたら、学習対象のコピーを
プールに追加して、２つのネットワークとランダムに対戦させる。勝ち越し閾値を超え
たら、同様にコピーをプールに追加して、３つのネットワークとランダムに対戦させる・・・。
コピーをプールに追加するのを世代と呼ぶ。

最初の論文で、１００００世代まで強化学習させたと書いてあったはず。

最初の一番弱い奴までプールに入れてあるのは、>>92で言うところの自己対戦に
よる過学習を防ぐためのもの。対戦相手の多様性を保つための工夫。

また、ε-greedyを採用して、学習対象のネットワークは、一定確率で敢えてランダム
に手を着手して、今の手が最善なのか、違うかを確認している。これも過学習防止策。

これらは特別なアルゴリズムでもなければ、「特定の弱点を修正するための方法」は
大抵、別の大きな弊害をもたらす事から、そういう付け焼刃な対処をしていないと、
考えるのが自然。

コンピューター囲碁ソフトについて語るスレ51 [無断転載禁止]©2ch.net
157 ：名無し名人[sage]：2017/06/04(日) 16:38:14.34 ID:OAau0fg8: >>150
エキスパートシステム的なノウハウ重視処理で重箱の隅をつついて、少しづつ
強くする方から、汎用的かつ強化学習的な方法に移行する事ができたというのは、
正しい梯子と呼んで構わないかと思う。

ハサビス的には、一つの答えにたどり着いたから、後は何年間強化学習し続ける
かだけの話になっちゃったんだと思う。もし、ネットワークの表現力が不足している
なら、ネットワークの深さを深くして、強化学習やり直せばよい。後、どれくらいの
そういう時間を要する作業があるかわからないけど、少なくともそれを続ければ、
いつかは頂上にたどり着くと、確信しているんだと思う。今回は、途中で強さの向上
が頭打ちにならないというか、頭打ちになったら、そこが囲碁の究極だと。

同時に、後は、マシンパワーと時間と根気勝負になっちゃって、革新的な改良は
残っていないという判断なんだと思う。

※このページは、『２ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の２ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。