必死チェッカーもどきプログラム > 2018年11月30日 > gAFwEIHo0

トップページ > プログラム > 2018年11月30日 > gAFwEIHo0

書き込み順位＆時間帯一覧

6 位/177 ID中	時間	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	Total
6 位/177 ID中	書き込み数	0	0	1	0	0	0	0	0	1	0	0	0	0	2	0	0	1	0	0	0	0	0	0	0	5

使用した名前一覧	書き込んだスレッド一覧
デフォルトの名無しさん (ﾜｯﾁｮｲ 5a97-ad2z)	【統計分析】機械学習・データマイニング21

書き込みレス一覧

【統計分析】機械学習・データマイニング21
301 ：デフォルトの名無しさん (ﾜｯﾁｮｲ 5a97-ad2z)[sage]：2018/11/30(金) 02:11:39.26 ID:gAFwEIHo0: 交差検証についてなんですが、例えばアイリスデータでSVMで3分割の交差検証した時(3分割の平均が)94%～97%ぐらいばらつきがあると思うのですが3分割の平均をさらに100回の平均とかして評価するって感じでいいんですかね？

【統計分析】機械学習・データマイニング21
304 ：デフォルトの名無しさん (ﾜｯﾁｮｲ 5a97-ad2z)[sage]：2018/11/30(金) 08:44:44.60 ID:gAFwEIHo0: >>303
研究とかで発表するときはどういう値を使ってるのですか？

【統計分析】機械学習・データマイニング21
306 ：デフォルトの名無しさん (ﾜｯﾁｮｲ 5a97-ad2z)[sage]：2018/11/30(金) 13:00:06.59 ID:gAFwEIHo0: 例えばkaggleとかなら初めからトレーニングデータとテストデータが分かれててテストデータとの答え合せで数値としての精度を用いてます。
自分で1つのデータを用いて精度を出したいときに、データが少なくてテストデータの選ばれ方にかなり影響を受けるというようなとときにはどういう風な値を用いればいいのかっていうのが聞きたいです。

【統計分析】機械学習・データマイニング21
307 ：デフォルトの名無しさん (ﾜｯﾁｮｲ 5a97-ad2z)[sage]：2018/11/30(金) 13:02:03.08 ID:gAFwEIHo0: >>306
テストデータの選ばれ方によって予測精度が全然違うみたいな時です。

【統計分析】機械学習・データマイニング21
309 ：デフォルトの名無しさん (ﾜｯﾁｮｲ 5a97-ad2z)[sage]：2018/11/30(金) 16:23:37.26 ID:gAFwEIHo0: 扱ってるデータの性質上データ数が少ないのは仕方ないのです…
今書いてるコードなんですが、
sklearnのcross_val_scoreでcvパラメータに層化分割を渡してます。(StratifiedKFold(n_splits=3, shuffle=True)
これでfor文で例えば100回回すと3つセットのスコアが100個出てきますよね？それで3値の平均のさらに100個の平均って感じで評価基準にしてます。3つセットのスコアの分散がそこそこ大きいのは仕方ないと思ってます。
これで良いのですかね。

※このページは、『２ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の２ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。