SSブログ

Amazonファミリ― [よもやま日記]

今更ながら、Amazonファミリ―に入りました。

到着が当日とか翌日届くのは嬉しいです。
また、会員限定セールとかもあり、お財布にも優しい。

Amazonでなんでもそろってしまいます。
今までYahoo!Shoppingや楽天を使っていましたが、アマゾン中心の生活になりそうです。。。


サントリー オールフリー (350ml×6缶)×4個

サントリー オールフリー (350ml×6缶)×4個

  • 出版社/メーカー: サントリー酒類
  • メディア: 食品&飲料




グーン やわらかフィットパンツ BIGサイズ 50枚入 女の子

グーン やわらかフィットパンツ BIGサイズ 50枚入 女の子

  • 出版社/メーカー: 大王製紙
  • メディア: ヘルスケア&ケア用品



データマイニングで有名な、「ビールとオムツ」ではないですが、「フリーとオムツ」を購入した今日この頃です。

続きを読む


nice!(36)  コメント(0)  トラックバック(0) 
共通テーマ:ショッピング

データサイエンティストというブーム [マーケティング / 仕事]

最近、データサイエンティストとかビッグデータという言葉が良い意味でも悪い意味でもブームになっている気がします。

「データサイエンティストとは?」と聞かれたので、自分なりに考えてみました。

自分がデータサイエンティストかどうかは置いておいて、社内の肩書はデータサイエンティストとなっています。
しかし、それがいったい何か?と聞かれれば、「う~ん。」と言葉に詰まってしまいます。

データサイエンス、データサイエンティストという言葉が出てくる少し前に、データマイニングとかデータマイナーという言葉が流行りました。
それとは、少し違う気がします。

また、往来からある言葉として、アナリストとか統計家という言葉もあります。

米国の経営誌『ハーバード・ビジネス・レビュー』(2012年10月号)によると、
21世紀で最もセクシーな職業は、データサイエンティスト(Data Scientist)だ。

と書かれています。

少し前(2009年)に有名になったのは、Google の Chief Economist である Hal Varian が言った言葉。
I keep saying that the sexy job in the next 10 years will be statisticians.


ここでは、データサイエンティストという言葉ではなく、統計学者という言葉です。

自分の感覚的にも2009年には、データサイエンスというブームが来ていると実感はなく、この間に急激に騒がれ始めたと感じています。

話を戻して、データマイニングという言葉が出てきた背景として、

・大量データ(この頃は、ビッグデータという言葉ではなかった)の中から、往来の統計学の手法とは別に、マシンの力を使って、ビジネスに役立つ(お金を生み出す)何かをマイニングする(発掘する)。

・データが計画的に生成されたものではなく、いろんなデータがまぜこぜなので、そもそも往来の統計手法は使えない問題に遭遇する。

・統計は、有意かどうか検定を行うが、データ数が多いので、なんでもかんでも有意になりやすい。だとすると、「よりよいモデルは何か?」を選択する必要がある。

このような背景のもと、データマイニングという言葉が生まれ、それらを扱う人は、データマイナーと呼ばれるようになったと思います。

ベン図で考えると、統計とデータマイニングは、かぶっている部分は多いものの、微妙にかぶっていない部分も存在する、そんな関係な気がします。

次に、データサイエンスやデータサイエンティストという言葉が出てきた背景も何らかの技術的な要因があると考えると、

・ビッグデータを扱う Hadoop が出てきた。

・Rというフリーソフトがそこそこ大きいデータを扱えるようになってきた。

・何やら Python もブームっぽい。

・IT屋さんがハードを売るために格好良い言葉が必要だった?
(これは言い過ぎか…w)

アナリスト、データマイナー、データサイエンティスト。
色々な肩書で呼ばれていますが、自分自身のスキルも微妙に時代の変化、求められるスキル、自分が求めたいスキルに応じて、意識的に変えてきました。

しかし、データ分析における大切なものは、呼び名が変わっても変わらない本質があると思います。

長くなったので、続く…。
nice!(7)  コメント(0)  トラックバック(0) 
共通テーマ:仕事

データサイエンティストと「高速道路論」 [マーケティング / 仕事]

データ分析の本質を書く前に、なんだか最近データサイエンティストと呼ばれる人って増えている気がします。

色々な企業でデータ分析の重要性が認識され、分析者が不足しています。
需要が多いと、データサイエンティストを目指そうとする人が増えるのはわかりますが、それにしても、そんなに急に増殖するものなのでしょうか…ね。。

最近、分析者(データサイエンティスト)と呼ばれる人をよく面接しますが、顕著な現象が起きています。

「私、分析できます!」という人に会うと、
a.きれいに成形されたデータが準備されたという条件のもと
b.ソフトにデータを入れて、工夫をせずに(デフォルトの設定のまま)
分析ができます、という人が多い。

条件付き確率的に、P(分析できる| a ∩ b) といった感じです。
それだけ、最近のソフトウェアが進化し使いやすくなったということでしょうか。

昔(2006年)、将棋の羽生さんが

ITとネットの進化によって将棋の世界に起きた最大の変化は、将棋が強くなるための高速道路が一気に敷かれたということです。でも高速道路を走りぬけた先では大渋滞が起きています。


と言っていました。

分析業界でも同じで、ソフトウェア、Google先生のおかげで、簡単に答えを見つけることができるようになりました。

誰でもそれなりの分析ができるようになり、データサイエンティストの大渋滞が起こっているように思えます。

前置きが長くなりましたが、データ分析における大切なことは?

・ビジネスを理解している。
具体的には、ビジネスの課題を数学や統計といったスキルを使い、分析を企画できること。

・基礎集計をじっくりと読み説くことができる。
クロス集計でたいていのことはわかります。
しっかりとして基礎集計の上に高度な分析スキルを組み合わせれば、大きなリターンを得る場合がありますが、テキトーな仮説の上でモデリングを行っても良い結果は得られません。

・データ分析の用語や概念を、一般の人にもわかりやすく伝えることができる翻訳技術。
伝わらないのは伝えての問題。

ではないでしょうか。

アナリスト、データマイナー、データサイエンティスト、時代とともに呼び名はわかっても、分析に大切な心構えは、変わらない、そんな気がします。

nice!(32)  コメント(2)  トラックバック(0) 
共通テーマ:仕事

失敗の備忘録…最新の年月の値の取得 [データサイエンス、統計モデル]

とあるリコメンドロジックを作っていた際に、出力レコードが0になっていた。
テストでは正常に出力されていたのだが、どうしてだろう?と思い調べてみると…。

会員のステータスを月ごとに持っていると仮定する。
(例)
月 ID 状態
4月 1 A
5月 1 B
6月 1 A

SPSS Modelerでモデルを作成するときに、分析者側のオーダーとしては、

1. 7月の状態を計算し
 (→ 7月 1 B なるものを計算し)

2. 以下、モデルの付与を行う

という処理を想定していたのだが、システム側は、1. と 2. を独立のものと考えていたようで、2. → 1. の順番で実行されてしまった。
つまり、7月分のレコードがないので、出力レコードが 0 だった。。。というわけである。

ここで、今後の対策を兼ねて、いろいろ検討してみると、
・月が切り替わるタイミングで施策を実行する場合、当月のファイルを作成できない場合どうなるのか?
という問題も残る。

そのあたりの分岐の仕組みもバッチ化すると、場合分けの条件が増えてしまう。

解決方法としては、シンプルに、最新の状態(最新の年月)を持ってくるのがよさそうだ。

→ max値を取得し、条件抽出する。

nice!(8)  コメント(0)  トラックバック(0) 
共通テーマ:仕事

IBM SPSS Modeler ID数を絞ってのループ処理 [データサイエンス、統計モデル]

Netezzaで大量データを高速に処理できるようになり、何も考えずに数千万とか数億レコードの処理してしまう。

普通は、問題ないのだが、1レコードに対し、最終的にそのレコードが1000倍とかになってしまう場合に注意が必要だ。

つまり、1000万レコード×1000=10,000,000,000
100億レコード!

さすがに、これらのレコードを同時に扱うと、処理が終わるのに数日かかってしまう。
ここは、初心に戻り、レコード数を小さくして処理を行うのがよさそうだ。

レコード数が増える場合、計算にかかる時間が
 1レコード数あたりの計算時間 × レコード数
と線形に増える場合は、あまり意味がなく、
 1レコード数あたりの計算時間 × (レコード数)n乗
レコード数が増えれば、計算時間が爆発的に増えてくる処理の場合に有効となる。

(例)
id数が1000万レコードだったとする。

IBM SPSS Modeler(旧称クレメンタイン)のスクリプトで1000人単位で1万回のループを回せばOK。

# i = 1
# ID >= 1000 * (1 - 1) and ID < 1000 * 1
 
execute 'out_1'
 
 
# i >= 2 and i <= 10000
 
for i from 2 to 10000
set id_num.condition = "ID >= 1000 * ('$P-i' - 1) and ID < 1000 * '$P-i'"
execute 'out_2'
endfor


この場合の注意点として、
1. あるIDの状態が他のIDに影響を与えないこと。
(与える場合は、あらかじめ独立で処理できるようにしておく。)

2. ループをたくさん回ることになるので、1回の処理に時間がかかる場合は、この方法は使えない。

この場合1万回のループを回すので、1回あたりの処理が10秒かかると仮定すると
10秒×1万回
= 100,000秒
≒ 1.16日

ということで、まるまる1日かければ、終了することになる。

レコード数を小さくして処理をする場合、1ループあたりにどれくらいのレコード数を入れるのか、1回ループあたりの処理時間は?などを意識しておかないと、かえって時間がかかることになるので注意が必要だ。

nice!(31)  コメント(0)  トラックバック(0) 
共通テーマ:仕事

星に願いを・・・ [ファミリー]

春飛が幼稚園からもらってきた笹に願い事が書かれていました。

「大きくなりたい。」と。

確かに、男の子の中では一番小さい春飛。
子供心に大きくなりたいって願っているんでしょうね。

なんだか微笑ましいです。

きっと、すぐに大きくなるさ。

ディズニーランド 七夕

ディズニーランド 七夕

ディズニーランド 七夕

ディズニーランド 七夕


nice!(4)  コメント(0)  トラックバック(0) 
共通テーマ:育児

カントリーベア・シアターの近くで指を指している熊さん [Disney / ディズニー]

ディズニーランドのウエスタンランドで指を指している熊さんがいます。

どこを指しているのか?
指を指している方向には、カントリーベア・シアターがあります。

「もうすぐ、ここで僕たちのショーがあるから観に来てね。」と指を指して言っているそうです。

20130707_img01.jpg

20130707_img02.jpg

nice!(31)  コメント(0)  トラックバック(0) 
共通テーマ:キャラクター

ステップ休暇で沖縄へ [【旅行】沖縄]

うちの会社は、3年働くごとに1か月の有給休暇がもらえる。
実は、昨年の10月に子供ができたタイミングで育児を兼ねてステップ休暇を取った。

今年の6月に新しい権利が発生したので、さっそく使ってみることにした。

子供の夏休みに合わせ、1週間ほど沖縄へ。
そして、そのまま1週間大阪へ帰省。
なんだかんだと2週間という長期の旅行になりました。w

前回、沖縄に行ったときは、本島だけだったので、
今回の旅行は、本島と宮古島の2つ回ることにしました。

さて、そろそろ旅の計画を立てないと…


るるぶ石垣 宮古 西表島'13~'14 (国内シリーズ)

るるぶ石垣 宮古 西表島'13~'14 (国内シリーズ)

  • 作者:
  • 出版社/メーカー: ジェイティビィパブリッシング
  • 発売日: 2013/01/30
  • メディア: ムック




まっぷる石垣・宮古 西表島'14 (マップルマガジン)

まっぷる石垣・宮古 西表島'14 (マップルマガジン)

  • 作者:
  • 出版社/メーカー: 昭文社
  • 発売日: 2013/02/25
  • メディア: ムック



nice!(3)  コメント(0)  トラックバック(0) 
共通テーマ:旅行

統計学が最強の学問である [データサイエンス、統計モデル]

統計学が最強の学問である

統計学が最強の学問である

統計学が最強の学問である

  • 作者: 西内 啓
  • 出版社/メーカー: ダイヤモンド社
  • 発売日: 2013/01/25
  • メディア: 単行本(ソフトカバー)



Amazonの口コミなどで、いろいろな意見が書かれていますね。
今まで特に読もうとも思わなかったのですが、あえて読んでみることにしました。

一章のところで、「あみだくじ」の事例が出てきたので、それについて考えてみることにした。

まず、なぜあみだくじは、一意に決まるのか?

たとえば、スタートが a1, a2, a3, …, an と n 個選択できるとすると、
ゴールは、必ず b1, b2, b3, …, bn にたどり着き、同じすべてのスタートがバラバラにゴールに着きます。

Aさんの結果とBさんの結果が同じゴールに着くことはありません。

いろいろな数学の証明方法はありますが、直感的にわかりやすい理由を考えてみました。

まず、横棒が1本も引かれていなかった場合。
これは、
 a1 → b1
 a2 → b2
 a3 → b3
 …
 an → bn
となります。

あみだくじでもなんでもないですね。

次に、線を1本引くという行為 Fij は何かを考えます。
たとえば、1と2の間に線を引けばどうなるか?

それは、
 a1 → b2
 a2 → b1
 a3 → b3
 …
 an → bn
となります。

つまり、F12 によって、二つのスタートとゴールが対になって入れ替わっています。

b2を新しいb1, b1を新しいb2と考えれば、横棒が1本も引かれていない状態
 a1 → b1
 a2 → b2
 a3 → b3
 …
 an → bn
と同じことになり、いくら横棒を引いても、対でゴールが入れ替わっているだけになります。

逆に考えれば、あみだくじとして成立しない置換方法として、対にならないような置換の場合
(ある時はこっち、また、あるときはこっちというような特殊な置換の場合)
この場合は、あみだくじとして成立しないことになりますね。

nice!(8)  コメント(0)  トラックバック(0) 
共通テーマ:学問

あみだくじは公平か? - 『統計学が最強の学問である』より [データサイエンス、統計モデル]

スタートが
a1, a2, a3, …, a8
までの8つあり、

ゴールが
b1, b2, b3, …, b8
までの8つのゴールがあったとする。



今、当たり番号を1から8まで変化させたとき、それぞれのスタートラインでの当たりの確率がどう変化していくかをシミュレーションする。

仮にあみだくじが公平であるとした場合、
・スタートがどこだとしても
・ゴール(当たり)がどこだとして
その発生する確率は同じである。

ということが言えるはずである。

シミュレーションの方法として、
1. 一人の人が1回だけ線を引く場合
2. 一人の人が2回だけ線を引く場合
3. 一人の人が100回だけ線を引く場合
どうなるか、計算してみる。

1回だけだと、偶然性があるので、上記のシミュレーションを1000回行ってみる。
つまり、
1. 一人の人が1本だけ線を引く場合 → 8000回のシミュレーション
2. 一人の人が2本だけ線を引く場合 → 16000回のシミュレーション
3. 一人の人が100本だけ線を引く場合 → 800000回のシミュレーション

シミュレーションの方法だが、IBM SPSS Modeler(旧称クレメンタイン)で行った。
スクリプトを組んでループをまわすだけの簡単なスクリプトなので、詳細は割愛しますが。。。

20130710_img02.jpg

結果、どうなったか?

20130710_img03.jpg

20130710_img04.jpg

20130710_img05.jpg

こうしてみると、線を引く本数が少ない場合は、当たりと同じ線上に線を引くというのがよさそうである。

線を引く本数が多くなっていった場合、一様分布に近づくので、スタート地点に関係なくなる。

とはいえ、あみだくじで線を引くのって、せいぜい1本か2本であり、100本も線を引いたりしない。w

となると、当たりがどこにあるのか知っているのと知っていないのでは、公平性に大きく差があるという結果になる。

統計学が最強の学問である

統計学が最強の学問である

統計学が最強の学問である

  • 作者: 西内 啓
  • 出版社/メーカー: ダイヤモンド社
  • 発売日: 2013/01/25
  • メディア: 単行本(ソフトカバー)



nice!(39)  コメント(2)  トラックバック(0) 
共通テーマ:学問

第54期王位戦七番勝負 第1局 [将棋]

将棋の第54期王位戦7番勝負の第1局が行われた。
先手の羽生善治王位が83手で挑戦者の行方尚史八段を破り、先勝した。

戦型は、角換わり腰掛け銀に。
角換わりの将棋は、お互いに角を持つので、激しい戦いになりがちですが、今回もお互いに譲らない戦いでした。

次回は、7月23・24日(火・水)に兵庫県の「中の坊瑞苑」で行われます。

nice!(3)  コメント(0)  トラックバック(0) 
共通テーマ:ゲーム

咳が続く [健康 / ビューティー]

会社でARINAを受賞しましたが、その講演(?)がありました。
ここのところ、咳がひどくて、フリスクを食べると、喉がス~っとして楽になります。
フリスクをボリボリ食べながら、苦しそうに見えてかもしれません。

その後は、会社近くの「彩」で打ち上げ。

早く体調が治ると良いのですが…

nice!(6)  コメント(0)  トラックバック(0) 
共通テーマ:健康

熱中症予防に日傘を購入 [健康 / ビューティー]

梅雨も上がり、暑い日々が続いていますが、
日傘をするのとしないのでは、6,7度くらいの温度差があるらしい。





小さい子供がいると、やはりあった方が良いかなぁと思い購入しました。

nice!(10)  コメント(0)  トラックバック(0) 
共通テーマ:健康

参議院選挙(参院選)2013 [時事 / ニュース]

参議院選挙の期日前投票に行ってきました。
(選挙当日は、沖縄にいるので。)

投票場を出ると、テレビ局の人が出口調査を行っていました。
せっかくなので、アンケートに答えておきましたが、アンケートの項目の中に、どこの党に投票しましたか?以外に、安倍政権に対するアンケートもありました。

さて、選挙は、どうなるんでしょうね。
楽しみです。

nice!(40)  コメント(0)  トラックバック(0) 
共通テーマ:ニュース

スマートフォン復活 [よもやま日記]

イオンに行ったら、NTTドコモのスマートフォン購入でwaonプレゼントってありました。

ツートップ戦略ってことで、ツートップに選ばれた機種は、すごいポイントが付きます。
一方、選ばれなかった機種は、あまりポイントが付きません。。。

なんだかかわいそうですが…

そのポイントにつられてスマートフォンを購入してしまいました。

先日、スマートフォンからガラケーに戻したばっかりなんですが。。。

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:携帯コンテンツ

第84期棋聖戦五番勝負 第4局 [将棋]

渡辺竜王が先手、羽生棋聖が後手となりました。
横歩取りでしたが、100手まで羽生棋聖の勝ちとなりました。
3勝1敗で防衛。6連覇を果たす。

初の三冠対決でしたが、羽生三冠が勝ちました。
羽生さんの防衛戦でしたので、タイトルの移動はありませんでした。

この二人の将棋は面白いですね。

nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:ゲーム