- 【統計分析】機械学習・データマイニング21
301 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 02:11:39.26 ID:gAFwEIHo0 - 交差検証についてなんですが、例えばアイリスデータでSVMで3分割の交差検証した時(3分割の平均が)94%〜97%ぐらいばらつきがあると思うのですが3分割の平均をさらに100回の平均とかして評価するって感じでいいんですかね?
|
- 【統計分析】機械学習・データマイニング21
304 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 08:44:44.60 ID:gAFwEIHo0 - >>303
研究とかで発表するときはどういう値を使ってるのですか?
|
- 【統計分析】機械学習・データマイニング21
306 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 13:00:06.59 ID:gAFwEIHo0 - 例えばkaggleとかなら初めからトレーニングデータとテストデータが分かれててテストデータとの答え合せで数値としての精度を用いてます。
自分で1つのデータを用いて精度を出したいときに、データが少なくてテストデータの選ばれ方にかなり影響を受けるというようなとときにはどういう風な値を用いればいいのかっていうのが聞きたいです。
|
- 【統計分析】機械学習・データマイニング21
307 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 13:02:03.08 ID:gAFwEIHo0 - >>306
テストデータの選ばれ方によって予測精度が全然違うみたいな時です。
|
- 【統計分析】機械学習・データマイニング21
309 :デフォルトの名無しさん (ワッチョイ 5a97-ad2z)[sage]:2018/11/30(金) 16:23:37.26 ID:gAFwEIHo0 - 扱ってるデータの性質上データ数が少ないのは仕方ないのです…
今書いてるコードなんですが、 sklearnのcross_val_scoreでcvパラメータに層化分割を渡してます。(StratifiedKFold(n_splits=3, shuffle=True) これでfor文で例えば100回回すと3つセットのスコアが100個出てきますよね?それで3値の平均のさらに100個の平均って感じで評価基準にしてます。3つセットのスコアの分散がそこそこ大きいのは仕方ないと思ってます。 これで良いのですかね。
|