平均値の欠点 [データサイエンス、統計モデル]
年末になると、年末調整とか冬のボーナスとかが気になりますね。
今日のニュースで、国家公務員のボーナスが4.1%増だったとか。
統計局のホームページから、年収や貯蓄の分布がダウンロードできます。
これによると、
年間収入の平均は、616万円
貯蓄の平均は、1,657万円
です。
どうでしょうか?
え?そんなに貯蓄しているんだっけ?って思う人も多いはずです。
「平均」という言葉は便利な反面、落とし穴的な欠点もあります。
ポイントは分布で、分布ってどうなっているんだっけ?ということを意識しておかないと、平均値の罠にひっかかります。
平均の利点
・ 計算が簡単
・ 平均を足したり、引いたりできる
・ どんな分布だろうと標本平均の分布は正規分布に近づく(中心極限定理)
平均の欠点
・極端に大きな値や小さな値の影響を受けてしまう
「平均 ≠ ちょうど真ん中の人」です。
⇒ 分布が正規分布していない場合は、中央値(中位値)を使うのが良い。
今回の年収やら貯蓄ってのは、左右対称の正規分布になっていません。
分布の山は左側に寄っているので、○○の平均はって言葉に騙されてしまいます。
データは、下記からダウンロードできます。
◆ 統計局ホームページ/家計調査年報(貯蓄・負債編)
http://www.stat.go.jp/data/sav/np.htm
※ 2011年8月26日発表のデータです。
今日のニュースで、国家公務員のボーナスが4.1%増だったとか。
統計局のホームページから、年収や貯蓄の分布がダウンロードできます。
これによると、
年間収入の平均は、616万円
貯蓄の平均は、1,657万円
です。
どうでしょうか?
え?そんなに貯蓄しているんだっけ?って思う人も多いはずです。
「平均」という言葉は便利な反面、落とし穴的な欠点もあります。
ポイントは分布で、分布ってどうなっているんだっけ?ということを意識しておかないと、平均値の罠にひっかかります。
平均の利点
・ 計算が簡単
・ 平均を足したり、引いたりできる
・ どんな分布だろうと標本平均の分布は正規分布に近づく(中心極限定理)
平均の欠点
・極端に大きな値や小さな値の影響を受けてしまう
「平均 ≠ ちょうど真ん中の人」です。
⇒ 分布が正規分布していない場合は、中央値(中位値)を使うのが良い。
今回の年収やら貯蓄ってのは、左右対称の正規分布になっていません。
分布の山は左側に寄っているので、○○の平均はって言葉に騙されてしまいます。
データは、下記からダウンロードできます。
◆ 統計局ホームページ/家計調査年報(貯蓄・負債編)
http://www.stat.go.jp/data/sav/np.htm
※ 2011年8月26日発表のデータです。
コメント 0