SSブログ

Clementineの限界!? [データサイエンス、統計モデル]

データマイニングツールとして有名なクレメンタインですが、ファンタジックフィーバーのジャックポット確率を計算することができます。

http://blog.so-net.ne.jp/Minky/2006-04-28

GWを利用して100億レコードの計算をさせていました。

すると、データ読み込みのカウンターがマイナス表示になっています。

また、アウトプットでも成功した数と失敗した数の集計でマイナスが出ています。
ヽ(#゚Д゚)ノ┌┛Σ(ノ´Д`)ノ

ドラゴンボールでスカウターが破壊されるシーンを思い出しました。
さすがに、100億の戦闘能力はクレメンタインには厳しかったようです。

では、いったい何億レコードまでなら可能なんでしょうか?

ここで、うほっ(・∀・)!と思ったのが、通常時の成功数はそれらしき数値が出ています。

もしや、内部でINT型のカウンターを持っており、
  符号ありの範囲は -2147483648~2147483647
  符号なしの範囲は 0~4294967295
符号ありの範囲が21億ちょっとなので、それ以上の計算はオーバーフロー起こしているのではないか!と思いました。

そこで、桁あふれを補正して、計算し直すと、、、

失敗数と成功数の合計がピッタリと100億になっています。(゚∀゚)

どうやら、クレメンタインの限界は10億レコード程度なんでしょうね。
実際問題、10億のレコードを処理するのではなく、サンプリングなどするのでしょうが。

ファンタジックフィーバーの成功確率は、100億データまで使用すると、99.989%まで上げることができますが、計算時間は約1日かかりました。。。
_| ̄|○ ☆ orz ごっつん!

http://blog.goo.ne.jp/tbinterface.php/7e7252e64e1087b90c38c7fb69bf6716/17


nice!(0)  コメント(0)  トラックバック(0) 
共通テーマ:学問

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0