複数のモデルを比較する指標 [データサイエンス、統計モデル]
統計の講師をしていて、なるほど!と思う質問を受けることがあります。
せっかくなので、その中からピックアップして紹介できればと思います。
【質問】
複数のモデルを比較する指標としてAICがあります。
p値がをみて有意でない変数を除外したモデルAと
有意でない変数を除外したモデルBがあり、
AICを比較すると、モデルBのAICが良かったです。
この場合、モデルAとモデルBのどちらを選択した方が良いでしょうか?
【回答】
モデル選択で
A. p値が有意なものだけを採用する
B. AIC基準でモデルを採用する
が考えられます。
しかし、A.はあまりお勧めしません。
というのは、各変数が有意かどうかのp値ですが、検定をしています。
つまり、変数の数が多くなると多重検定していることと同じであり、本当は有意であるにもかかわらず除外してしまうリスクがあるからです。
また、0.05とか0.1という基準ギリギリ少し超えている変数がある場合、その変数を除外するよりか、採択した方が良い場合があります。
ということで、一般的には、B.で良いかと思います。
せっかくなので、その中からピックアップして紹介できればと思います。
【質問】
複数のモデルを比較する指標としてAICがあります。
p値がをみて有意でない変数を除外したモデルAと
有意でない変数を除外したモデルBがあり、
AICを比較すると、モデルBのAICが良かったです。
この場合、モデルAとモデルBのどちらを選択した方が良いでしょうか?
【回答】
モデル選択で
A. p値が有意なものだけを採用する
B. AIC基準でモデルを採用する
が考えられます。
しかし、A.はあまりお勧めしません。
というのは、各変数が有意かどうかのp値ですが、検定をしています。
つまり、変数の数が多くなると多重検定していることと同じであり、本当は有意であるにもかかわらず除外してしまうリスクがあるからです。
また、0.05とか0.1という基準ギリギリ少し超えている変数がある場合、その変数を除外するよりか、採択した方が良い場合があります。
ということで、一般的には、B.で良いかと思います。