トップページ > プログラム > 2018年11月30日 > gAFwEIHo0

書き込み順位&時間帯一覧

6 位/177 ID中時間01234567891011121314151617181920212223Total
書き込み数0010000010000200100000005



使用した名前一覧書き込んだスレッド一覧
デフォルトの名無しさん (ワッチョイ 5a97-ad2z)
【統計分析】機械学習・データマイニング21

書き込みレス一覧

【統計分析】機械学習・データマイニング21
301 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 02:11:39.26 ID:gAFwEIHo0
交差検証についてなんですが、例えばアイリスデータでSVMで3分割の交差検証した時(3分割の平均が)94%〜97%ぐらいばらつきがあると思うのですが3分割の平均をさらに100回の平均とかして評価するって感じでいいんですかね?
【統計分析】機械学習・データマイニング21
304 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 08:44:44.60 ID:gAFwEIHo0
>>303
研究とかで発表するときはどういう値を使ってるのですか?
【統計分析】機械学習・データマイニング21
306 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 13:00:06.59 ID:gAFwEIHo0
例えばkaggleとかなら初めからトレーニングデータとテストデータが分かれててテストデータとの答え合せで数値としての精度を用いてます。
自分で1つのデータを用いて精度を出したいときに、データが少なくてテストデータの選ばれ方にかなり影響を受けるというようなとときにはどういう風な値を用いればいいのかっていうのが聞きたいです。
【統計分析】機械学習・データマイニング21
307 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 13:02:03.08 ID:gAFwEIHo0
>>306
テストデータの選ばれ方によって予測精度が全然違うみたいな時です。
【統計分析】機械学習・データマイニング21
309 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 16:23:37.26 ID:gAFwEIHo0
扱ってるデータの性質上データ数が少ないのは仕方ないのです…
今書いてるコードなんですが、
sklearnのcross_val_scoreでcvパラメータに層化分割を渡してます。(StratifiedKFold(n_splits=3, shuffle=True)
これでfor文で例えば100回回すと3つセットのスコアが100個出てきますよね?それで3値の平均のさらに100個の平均って感じで評価基準にしてます。3つセットのスコアの分散がそこそこ大きいのは仕方ないと思ってます。
これで良いのですかね。


※このページは、『2ちゃんねる』の書き込みを基に自動生成したものです。オリジナルはリンク先の2ちゃんねるの書き込みです。
※このサイトでオリジナルの書き込みについては対応できません。
※何か問題のある場合はメールをしてください。対応します。