SSブログ

ビックデータの落とし穴 [階層ベイズ]

4月から、新しい授業が始まりましたが、「なるほど!」と思える事も多く、備忘録として残しておきます。

【ビックデータの落とし穴】

「データの動的構造と多変量因果構造の同時モデル」が難しい。

偶然の相関の問題。
1万検定を行うと100個くらい1%有意になるものが発生する。

統計的有意性症候群になってはダメ。

構造が不均一(質の悪いデータ)
階層ベイズ、潜在クラスを使うことで色々なことが分かってくる。

SVMやNNは、ブラックボックス?
回帰構造不均一性をデータから学習するから精度が良い。

一方、階層ベイズは、この人にはこの人には効くが、別の人には説明変数が効くということを表現することができる。

樹形モデル(決定木)は、ニューラルネットワークに比べたら精度は悪いが、人間にとって非常に理解しやすい。

【AI(機械学習)と統計モデルの棲み分け】
機械学習(AI):目的に対する最適化をスピーディーに作ることが出来る。
ただ、色々なところで、おかしなことが起こっていることを認識すること。

統計モデル:人の知識を利用する。
構造を表現、モデリングすることで、マーケティング施策に役立つ。

ベストパフォーマンスだけでなく、ワーストパフォーマンスも理解して使うこと。

【研究について重要な事】
1.目的
個性・着想

2. 手段
技術力・創造力

3. 評価
実験の計画

nice!(50)  コメント(0)  トラックバック(0) 
共通テーマ:学問