不均衡データやロジスティック回帰など
今日やったこと
強くなったこと
ロジスティック回帰とSVMの違い
どちらも分類問題を解ける模様。SVMは方法によっては回帰問題も解ける。
じゃあこの2つの何が違うかというと、結論的には「決定境界の取り方が違う」らしい。
ロジスティック回帰:最小になるように SVM:最大となるように
要するに、線を引いて分けるときに、点に近いか遠いかみたいな感じなよう。
※SVMって「サポートベクターマシン」「サポートベクトルマシン」どっちだ? 今日読んだ方は「サポートベクトルマシン」だった
正解率・精度・再現率・F値などなど
正直、個々の部分てどっちがどっちだったっけ?ってなるから、今度きれいに図でまとめたい。
正解率が然程かわらない複数のモデルを構築した際には、精度と再現率のどっちを取るべきか?という観点で実務だとモデルを選択するんだろうね。
気になったこと
ロジスティック回帰での不均衡データ
ロジスティック回帰が事後確率のため、不均衡データのサンプリング方法は弄らないで、とにかくデータ数を増やすために入れたほうが良いってあったけどホントなのだろうか?
この場合は、閾値を変化させて精度を上げていくのが正しい方法?ちょっと、また詳しく調べよう