- ゲーマーLV90 人工知能編
1 :ゲーマーLV90 ◆YYqXz1t7YA []:2018/05/03(木) 17:27:04.30 ID:aC7LfhT5 - 皆さんお久しぶりです
第三弾は人工知能 ゲームに使えるかもしれない単純な人工知能について良さそうな構想を思いついたのでぼちぼちやっていこうと思います
|
- ゲーマーLV90 人工知能編
2 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:31:54.94 ID:aC7LfhT5 - 簡単に言えば
学習データの作成後 学習データを使用し 行動 学習データとモードで行動に偏りを 表が完成すれば目的行動を取らせられる こんな感じの人工知能ですね それでは要素書いていきます
|
- ゲーマーLV90 人工知能編
3 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:38:18.36 ID:aC7LfhT5 - 状態=報酬
01=07 02=08 03=09 04=10 05=11 06=12 07=13 08=14 09=15 10=16 11=17 12=18 13=19 行動=効果 01=+1 02=+2 03=+3 04=+4 05=+5 06=+6 07=−1 08=−2 09=−3 10=−4 11=−5 12=−6 13=±0
|
- ゲーマーLV90 人工知能編
4 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:39:00.19 ID:aC7LfhT5 - 報酬=報酬量
01=−500 02=−500 03=−500 04=−500 05=−500 06=−500 07=−3 08=−2 09=−1 10=±0 11=+1 12=+2 13=+3 14=+2 15=+1 16=±0 17=−1 18=−2 19=−3 20=−500 21=−500 22=−500 23=−500 24=−500 25=−500
|
- ゲーマーLV90 人工知能編
5 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:40:32.43 ID:aC7LfhT5 - 状態 行動 効果 報酬 報酬量?
00 00 000 01 □ −500 00 00 000 02 □ −500 00 00 000 03 □ −500 00 00 000 04 □ −500 00 00 000 05 □ −500 00 00 000 06 □ −500 07 □ 01 □ +1 07 □ −3 08 □ 02 □ +2 08 □ −2 09 □ 03 □ +3 09 □ −1 10 □ 04 □ +4 10 □ ±0 11 □ 05 □ +5 11 □ +1 12 □ 06 □ +6 12 ■ +2 13 ■ 07 ■ −1 13 □ +3 14 □ 08 □ −2 14 □ +2 15 □ 09 □ −3 15 □ +1 16 □ 10 □ −4 16 □ ±0 17 □ 11 □ −5 17 □ −1 18 □ 12 □ −6 18 □ −2 19 □ 13 □ ±0 19 □ −3 00 00 000 20 □ −500 00 00 000 21 □ −500 00 00 000 22 □ −500 00 00 000 23 □ −500 00 00 000 24 □ −500 00 00 000 25 □ −500
|
- ゲーマーLV90 人工知能編
6 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:42:32.91 ID:aC7LfhT5 - 横=行動
縦=状態 ?=報酬 01020304050607080910111213 07????????????? 08????????????? 09????????????? 10????????????? 11????????????? 12????????????? 13????????????? 14????????????? 15????????????? 16????????????? 17????????????? 18????????????? 19?????????????
|
- ゲーマーLV90 人工知能編
7 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:44:02.68 ID:aC7LfhT5 - ずれてる(笑)
01 02 03 04 05 06 07 08 09 10 11 12 13 07 08 09 10 11 12 13 06 05 04 03 02 01 07 08 09 10 11 12 13 14 07 06 05 04 03 02 08 09 10 11 12 13 14 15 08 07 06 05 04 03 09 10 11 12 13 14 15 16 09 08 07 06 05 04 10 11 12 13 14 15 16 17 10 09 08 07 06 05 11 12 13 14 15 16 17 18 11 10 09 08 07 06 12 13 14 15 16 17 18 19 12 11 10 09 08 07 13 14 15 16 17 18 19 20 13 12 11 10 09 08 14 15 16 17 18 19 20 21 14 13 12 11 10 09 15 16 17 18 19 20 21 22 15 14 13 12 11 10 16 17 18 19 20 21 22 23 16 15 14 13 12 11 17 18 19 20 21 22 23 24 17 16 15 14 13 12 18 19 20 21 22 23 24 25 18 17 16 15 14 13 19
|
- ゲーマーLV90 人工知能編
8 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:52:34.25 ID:aC7LfhT5 - 説明が失敗しそうな予感がする
状態+行動=報酬 状態 行動 効果 報酬 報酬量 状態13 行動13 効果13 報酬25 報酬量8 記憶 状態 行動 報酬量? 回数 上限 状態 認識 参照 行動 報酬 記憶 状態nの時に行動nをしたら報酬nが得られた
|
- ゲーマーLV90 人工知能編
9 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:53:29.36 ID:aC7LfhT5 - モード
学習データ作成モード 状態に対して学習データを参照して 回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に など 学習データ使用モード 状態に対して学習データを参照して 報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択 や スコアがn点になるように行動 n点になったらその点数を維持 など
|
- ゲーマーLV90 人工知能編
10 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:54:23.34 ID:aC7LfhT5 - 記憶上限
報酬複数や報酬変化に対応 など 上限超えた記憶を消すのが重要 上限少ない方が適応が速い 状態 行動 結果 回数=% 上限 回数=報酬を得た回数 古いのから消えていく 例 報酬複数 状態01+行動01=報酬01 50 100 状態01+行動01=報酬02 30 100 状態01+行動01=報酬03 20 100 状態+行動=報酬 の表の作成と使用 表の作成=学習 表の使用=予測 状態ランダムテーブルシャッフル 09 08 07 04 05 06 03 02 01 10 13 12 11 など 13回状態変えたらシャッフル 一応確率式でも可能だけど確率式だと学習漏れする可能性がある 100÷13=約7.69% 01から13まで各状態7.69%とかだと学習漏れの可能性 学習率 学習率100%=表の完成? 確率的な場合 表が完成しない場合もある 記憶上限も関係?
|
- ゲーマーLV90 人工知能編
11 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:56:08.21 ID:aC7LfhT5 - フェーズ 学習データ作成モード ざっくり
モード=状態に対して学習データを参照して 回数が少ない行動を取る 回数が同じ場合は 行動変数小さい順 や 行動01から順に 状態ランダムテーブルシャッフル 状態 テーブルの1番 状態認識 モード参照 行動 報酬獲得 記憶 状態 テーブルの2番 状態認識 モード参照 行動 報酬獲得 記憶 テーブル13まで終わったら 状態ランダムテーブルシャッフル 状態 テーブルの1番 状態認識 モード参照 行動 報酬獲得 記憶 13×13=169 で表完成 フェーズ 学習データ使用モード ざっくり モード=状態に対して学習データを参照して 報酬が一番高く確率が高い行動を選択 確率が同じ場合新しいのを選択 状態nに対して作成した表の行動13を選択でモードの表現
|
- ゲーマーLV90 人工知能編
12 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 17:58:49.65 ID:aC7LfhT5 - とりあえず要素はこんな感じです
説明なしでも伝わるか時間置いてみようと思います
|
- ゲーマーLV90 人工知能編
14 :ゲーマーLV90 ◆YYqXz1t7YA [sage]:2018/05/03(木) 19:42:11.21 ID:aC7LfhT5 - >>13
状態+行動=報酬です あと>>4を見てもらえれば
|