SSブログ

平均値の欠点 [データサイエンス、統計モデル]

年末になると、年末調整とか冬のボーナスとかが気になりますね。
今日のニュースで、国家公務員のボーナスが4.1%増だったとか。

統計局のホームページから、年収や貯蓄の分布がダウンロードできます。
これによると、
年間収入の平均は、616万円
貯蓄の平均は、1,657万円
です。

どうでしょうか?
え?そんなに貯蓄しているんだっけ?って思う人も多いはずです。

「平均」という言葉は便利な反面、落とし穴的な欠点もあります。
ポイントは分布で、分布ってどうなっているんだっけ?ということを意識しておかないと、平均値の罠にひっかかります。

平均の利点
・ 計算が簡単
・ 平均を足したり、引いたりできる
・ どんな分布だろうと標本平均の分布は正規分布に近づく(中心極限定理)

平均の欠点
・極端に大きな値や小さな値の影響を受けてしまう

「平均 ≠ ちょうど真ん中の人」です。
⇒ 分布が正規分布していない場合は、中央値(中位値)を使うのが良い。

今回の年収やら貯蓄ってのは、左右対称の正規分布になっていません。
分布の山は左側に寄っているので、○○の平均はって言葉に騙されてしまいます。

データは、下記からダウンロードできます。
◆ 統計局ホームページ/家計調査年報(貯蓄・負債編)
http://www.stat.go.jp/data/sav/np.htm

※ 2011年8月26日発表のデータです。


社会生活統計指標―都道府県の指標〈2011〉

社会生活統計指標―都道府県の指標〈2011〉

  • 作者:
  • 出版社/メーカー: 日本統計協会
  • 発売日: 2011/02
  • メディア: -



nice!(30)  コメント(0)  トラックバック(0) 
共通テーマ:学問

nice! 30

コメント 0

トラックバック 0