Minkyのよもやま日記：SSブログ

	ブログをはじめるログイン

2021年03月15日｜ 2021年03月16日｜2021年03月17日ブログトップ

機械学習で大量の変数を作ることの問題点　 [データサイエンス、統計モデル]

若手のエンジニアと話していた時の話。
いろんな変数をmaxとかminとか一見意味のない処理で大量に増幅させて、予測精度をあげようという方針でした。
精度ということに着目すれば、こういうアプローチもあるんだろうな、と思うのですが、個人的には大きな違和感があったので、問題点を整理してみます。

（問題点 1）
モデルが2つあった場合、予測精度がA:90%とB:95%である。
B:95%のモデルが良いモデルかといえば、必ずしもそうではない。
クーポンとかポイントの配布をする際に、クーポンの効用部分の精度を確認しないと、大きな失敗をする場合がある。
つまり、介入するという場合、介入する効果の精度が全体の精度より大切。

（問題点 2）
多くの変数をカウントするのではなく、もっと単純な構造が隠れている場合があり、シンプルに少ない変数を加工して使った場合と精度が変わらない。
そして、前者の場合は、作ったモデルは予測にしか使えないが、後者の場合は予測に加えて、構造も同時に理解することができる。

（問題点 3）
大量に変数を使うことで、0.1%精度が上がるかもしれない。
しかし、クーポンをそれなりの人に配るのであれば、0.1%で何が変わるかといえば、ほんの少し順番が変わるくらいだろう。
その辺りのことは無視した方が良い。

（問題点 4）
点で推定した確率しかみない人がいる。
しかし、期待確率は点ではなく、ある幅を持っている。
確率的な幅を出すためには、機械学習モデルより統計モデルの方が良い。

2021-03-16 23:59 nice!(3) コメント(0)
共通テーマ：学問

2021年03月15日｜ 2021年03月16日｜2021年03月17日ブログトップ