- ▲コンピュータ将棋スレッド60▽
559 :名無し名人[sage]:2011/01/12(水) 05:32:20 ID:Hv0PCUIB - >>558
横からだけど、 コンピュータ将棋の進歩1〜5は読んだかな?
|
- ▲コンピュータ将棋スレッド60▽
561 :名無し名人[sage]:2011/01/12(水) 05:58:27 ID:Hv0PCUIB - >>560
その本のなかに探索深さを深くすると強くなるというのは経験的にわかっているという記述はあったよね? 強くなるというのは、評価関数の精度の悪さが局面を先まで読むことによって補正されているってことでしょ。 何故、補正されるかそのメカニズムが知りたいってこと? それとも、「探索深さを深くすると強くなる」が正しいかどうかについて知りたいの?
|
- ▲コンピュータ将棋スレッド60▽
563 :名無し名人[sage]:2011/01/12(水) 06:45:01 ID:Hv0PCUIB - >>562
言いたい意味がよくわからない。 「深く読めば強くなる」ことがわかっているなら、 より深く読むことによって、(深く読まない時に比べて)強いプレイヤー同士の棋譜が出来ることは自明だよね。 そして、強いプレイヤー同士の棋譜から学習させたほうが、 より精度のいい評価関数のパラメータになることも自明だよね。 それのどこがわからないの?
|
- ▲コンピュータ将棋スレッド60▽
578 :名無し名人[sage]:2011/01/12(水) 14:21:47 ID:Hv0PCUIB - >>568
> これをもっと効率よくできないか考えてみよう。 自己対戦である程度深くまで読んで、それによって自己学習すれば棋譜生成してからからボナメソで 学習させるよりは少し効率がいいだろうね。 なんでそれをやらないかって話になるんだけど、>>569の > これが自己対局の学習アルゴリズムです。 > オセロでもチェスでも将棋でも、さんざん既出なネタです。 これ、成功例および論文が出てるなら教えて欲しい。>>569 それで私が知る限りはオセロでは成功例がある。 チェスに成功例があるのかは私は知らない。 将棋は、自己対戦だと囲いがうまく学習しきれないんだ。 これは、序盤の囲いの良し悪しが響いてくるのは終盤付近なので、 終盤付近まで読まないと結果がでないから。 だから現状はプロ棋士の棋譜から学習させるのが一番いい。 モンテカルロ将棋がもう少し強くなってきたら、囲いだけはモンテカルロ将棋の棋譜から 学習できるかも知れないね。
|
- ▲コンピュータ将棋スレッド60▽
579 :名無し名人[sage]:2011/01/12(水) 14:27:25 ID:Hv0PCUIB - >>577
> これに対して5手先読みでのボナメソ これまた何が言いたいのかよくわからないが、 ボナメソで学習させるときの探索深さを5手にするという話をしているなら、いまのところ出来ない。 3手深さで8コアマシンで3ヶ月かけてたぶん収束しきってない。 2手深くすると20倍ぐらい収束に時間がかかるだろうから、60ヶ月かかる。 16コアのマシンが安くなってくれれば手が届くかも知れないが。
|
- ▲コンピュータ将棋スレッド60▽
581 :名無し名人[sage]:2011/01/12(水) 15:42:14 ID:Hv0PCUIB - >>580
棋譜から駒の価値を自動学習するというのはチェスの世界にも昔からあった。 チェスは駒の動きが将棋より速いので、位置による評価はあまり意味をなさないので 駒の価値だけ学習できれば十分強くなれた。 かたや将棋は、駒の動きが遅いので駒の位置による評価がすごく大切で、 これを評価関数に取り入れようと思うと調整すべきパラメータが多すぎて チェスでやっていたような単純な方法ではパラメータが収束しなかった。 それを収束するように工夫したのがボナメソ。 というのが私の理解だけど。
|
- ▲コンピュータ将棋スレッド60▽
584 :名無し名人[sage]:2011/01/12(水) 15:54:37 ID:Hv0PCUIB - >>582
> とにかく過去の経験ではこの局面では矢倉につながるこの金上がりが多く指されて勝率がいいんだ ソフト同士対局させるなら、その金あがりが最善だとソフトが思っていないのに、無理に金をあげる手を 人間が強制して指させても、またどこかで金を引く手を指すことになるので、金上がりに対する正当な評価が出来ない というのはあるんじゃないかな。
|
- ▲コンピュータ将棋スレッド60▽
586 :名無し名人[sage]:2011/01/12(水) 16:17:28 ID:Hv0PCUIB - >>585
それなら、「完全ランダム」にする必要はなくて、5手後の全局面を開始局面にしてコンピュータに自己対戦させればいい。 ただ、>>584のように、囲いの手を指しても、途中でそのソフトが好む囲いに戻ってしまうので、 囲いに対する正当な評価は出来ないと思うよ。
|
- ▲コンピュータ将棋スレッド60▽
593 :名無し名人[sage]:2011/01/12(水) 16:35:01 ID:Hv0PCUIB - >>589
意味がよくわかんないや。 > その作業の時は戻ってもいいんです、戻る手も有効な手も全部勝率の一部に蓄えるので。 これだけど、例えば、序盤で33角成〜同金とした形で、ソフトによっては32金と引くだろうし、 ソフトによっては33金を生かすために22飛と回ってくるかも知れない。 32金と引くソフトにとっては33金の形を生かせないので33金を生かすソフトより勝率が悪い。 要するに、そういう風に指し手を生かせないならプロ同士が指し継いだ場合とは異なる(間違った)勝率の値になる。 そういう値からでは正しく学習できないし、プロの棋譜から学習させるほうが断然いいのではないかと。
|
- ▲コンピュータ将棋スレッド60▽
594 :名無し名人[sage]:2011/01/12(水) 16:39:04 ID:Hv0PCUIB - >>588
> 柿木さんのK55の学習の資料は見た? うん、その資料なら見たよ。 > 要するに、浅い探索での最善手が深い探索での最善手と一致するように評価関数のパラメータを学習させたいって事だよな。 55将棋なら十分可能だと思うよ。 しかし本将棋ではなかなか効果でないだろうね。理由は>>578で書いた。
|