必死チェッカーもどきゲ製作技術 > 2018年05月03日

トップページ > ゲ製作技術 > 2018年05月03日 > aC7LfhT5

書き込み順位＆時間帯一覧

2 位/70 ID中	時間	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	Total
2 位/70 ID中	書き込み数	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0	12	0	1	0	0	0	0	13

使用した名前一覧	書き込んだスレッド一覧
ゲーマーLV90 ◆YYqXz1t7YA ゲーマーLV90 ◆YYqXz1t7YA	ゲーマーLV90　人工知能編

書き込みレス一覧

ゲーマーLV90　人工知能編
1 ：ゲーマーLV90 ◆YYqXz1t7YA []：2018/05/03(木) 17:27:04.30 ID:aC7LfhT5: 皆さんお久しぶりです
第三弾は人工知能
ゲームに使えるかもしれない単純な人工知能について良さそうな構想を思いついたのでぼちぼちやっていこうと思います

ゲーマーLV90　人工知能編
2 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:31:54.94 ID:aC7LfhT5: 簡単に言えば
学習データの作成後　学習データを使用し　行動
学習データとモードで行動に偏りを
表が完成すれば目的行動を取らせられる
こんな感じの人工知能ですね

それでは要素書いていきます

ゲーマーLV90　人工知能編
3 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:38:18.36 ID:aC7LfhT5: 状態＝報酬
01＝07
02＝08
03＝09
04＝10
05＝11
06＝12
07＝13
08＝14
09＝15
10＝16
11＝17
12＝18
13＝19

行動＝効果
01＝＋1
02＝＋2
03＝＋3
04＝＋4
05＝＋5
06＝＋6
07＝－1
08＝－2
09＝－3
10＝－4
11＝－5
12＝－6
13＝±0

ゲーマーLV90　人工知能編
4 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:39:00.19 ID:aC7LfhT5: 報酬＝報酬量
01＝－500
02＝－500
03＝－500
04＝－500
05＝－500
06＝－500
07＝－3
08＝－2
09＝－1
10＝±0
11＝＋1
12＝＋2
13＝＋3
14＝＋2
15＝＋1
16＝±0
17＝－1
18＝－2
19＝－3
20＝－500
21＝－500
22＝－500
23＝－500
24＝－500
25＝－500

ゲーマーLV90　人工知能編
5 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:40:32.43 ID:aC7LfhT5: 状態　　行動　　効果　報酬　　報酬量？
00　　　00　　　000　01　□　－500
00　　　00　　　000　02　□　－500
00　　　00　　　000　03　□　－500
00　　　00　　　000　04　□　－500
00　　　00　　　000　05　□　－500
00　　　00　　　000　06　□　－500
07　□　01　□　＋1　07　□　－3
08　□　02　□　＋2　08　□　－2
09　□　03　□　＋3　09　□　－1
10　□　04　□　＋4　10　□　±0
11　□　05　□　＋5　11　□　＋1
12　□　06　□　＋6　12　■　＋2
13　■　07　■　－1　13　□　＋3
14　□　08　□　－2　14　□　＋2
15　□　09　□　－3　15　□　＋1
16　□　10　□　－4　16　□　±0
17　□　11　□　－5　17　□　－1
18　□　12　□　－6　18　□　－2
19　□　13　□　±0　19　□　－3
00　　　00　　　000　20　□　－500
00　　　00　　　000　21　□　－500
00　　　00　　　000　22　□　－500
00　　　00　　　000　23　□　－500
00　　　00　　　000　24　□　－500
00　　　00　　　000　25　□　－500

ゲーマーLV90　人工知能編
6 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:42:32.91 ID:aC7LfhT5: 横＝行動
縦＝状態
？＝報酬

　01020304050607080910111213
07？？？？？？？？？？？？？
08？？？？？？？？？？？？？
09？？？？？？？？？？？？？
10？？？？？？？？？？？？？
11？？？？？？？？？？？？？
12？？？？？？？？？？？？？
13？？？？？？？？？？？？？
14？？？？？？？？？？？？？
15？？？？？？？？？？？？？
16？？？？？？？？？？？？？
17？？？？？？？？？？？？？
18？？？？？？？？？？？？？
19？？？？？？？？？？？？？

ゲーマーLV90　人工知能編
7 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:44:02.68 ID:aC7LfhT5: ずれてる(笑)

　　01　02　03　04　05　06　07　08　09　10　11　12　13
07　08　09　10　11　12　13　06　05　04　03　02　01　07
08　09　10　11　12　13　14　07　06　05　04　03　02　08
09　10　11　12　13　14　15　08　07　06　05　04　03　09
10　11　12　13　14　15　16　09　08　07　06　05　04　10
11　12　13　14　15　16　17　10　09　08　07　06　05　11
12　13　14　15　16　17　18　11　10　09　08　07　06　12
13　14　15　16　17　18　19　12　11　10　09　08　07　13
14　15　16　17　18　19　20　13　12　11　10　09　08　14
15　16　17　18　19　20　21　14　13　12　11　10　09　15
16　17　18　19　20　21　22　15　14　13　12　11　10　16
17　18　19　20　21　22　23　16　15　14　13　12　11　17
18　19　20　21　22　23　24　17　16　15　14　13　12　18
19　20　21　22　23　24　25　18　17　16　15　14　13　19

ゲーマーLV90　人工知能編
8 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:52:34.25 ID:aC7LfhT5: 説明が失敗しそうな予感がする

状態＋行動＝報酬
状態　行動　効果　報酬　報酬量

状態13　行動13　効果13　報酬25　報酬量8

記憶
状態　行動　報酬量？　回数　上限

状態　認識　参照　行動　報酬　記憶
状態ｎの時に行動ｎをしたら報酬ｎが得られた

ゲーマーLV90　人工知能編
9 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:53:29.36 ID:aC7LfhT5: モード
学習データ作成モード
状態に対して学習データを参照して
回数が少ない行動を取る　回数が同じ場合は　行動変数小さい順　や　行動01から順に
など

学習データ使用モード
状態に対して学習データを参照して
報酬が一番高く確率が高い行動を選択　確率が同じ場合新しいのを選択
や
スコアがｎ点になるように行動　ｎ点になったらその点数を維持
など

ゲーマーLV90　人工知能編
10 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:54:23.34 ID:aC7LfhT5: 記憶上限
報酬複数や報酬変化に対応　など
上限超えた記憶を消すのが重要
上限少ない方が適応が速い
状態　行動　結果　回数＝％　上限
回数＝報酬を得た回数
古いのから消えていく
例　報酬複数
状態01＋行動01＝報酬01　50　100
状態01＋行動01＝報酬02　30　100
状態01＋行動01＝報酬03　20　100

状態＋行動＝報酬　の表の作成と使用
表の作成＝学習
表の使用＝予測

状態ランダムテーブルシャッフル
09　08　07　04　05　06　03　02　01　10　13　12　11　など
13回状態変えたらシャッフル
一応確率式でも可能だけど確率式だと学習漏れする可能性がある
100÷13＝約7.69％　01から13まで各状態7.69％とかだと学習漏れの可能性

学習率
学習率100％＝表の完成？　確率的な場合　表が完成しない場合もある
記憶上限も関係？

ゲーマーLV90　人工知能編
11 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:56:08.21 ID:aC7LfhT5: フェーズ　学習データ作成モード　ざっくり
モード＝状態に対して学習データを参照して
　　　　回数が少ない行動を取る　回数が同じ場合は　行動変数小さい順　や　行動01から順に

状態ランダムテーブルシャッフル
状態　テーブルの1番
状態認識
モード参照
行動
報酬獲得
記憶
状態　テーブルの2番
状態認識
モード参照
行動
報酬獲得
記憶
テーブル13まで終わったら
状態ランダムテーブルシャッフル
状態　テーブルの1番
状態認識
モード参照
行動
報酬獲得
記憶
13×13＝169　で表完成

フェーズ　学習データ使用モード　ざっくり
モード＝状態に対して学習データを参照して
　　　　報酬が一番高く確率が高い行動を選択　確率が同じ場合新しいのを選択

状態ｎに対して作成した表の行動13を選択でモードの表現

ゲーマーLV90　人工知能編
12 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 17:58:49.65 ID:aC7LfhT5: とりあえず要素はこんな感じです
説明なしでも伝わるか時間置いてみようと思います

ゲーマーLV90　人工知能編
14 ：ゲーマーLV90 ◆YYqXz1t7YA [sage]：2018/05/03(木) 19:42:11.21 ID:aC7LfhT5: >>13
状態＋行動＝報酬です
あと>>4を見てもらえれば

※このページは、『２ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の２ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。