SSブログ

【Hadoop MapReduce】最終課題に向けて [Hadoop / Spark]

Hadoopの勉強もだいぶ終盤に差し掛かっていて、いよいよ最終課題を残すのみとなりました。

Hadoopが難しいというよりかは、Python特有の癖みたいなのを把握するのに苦労しました。

SPSS Modeler(Clementine)でストリームを書くと1分くらいで書けちゃう処理を、MapReduceプログラムで書くと丸々二日かかったりと。。。

それが、急に視界が開けてきて、最近では、数十分程度で書けるようになってきました。
こういうプログラムって慣れるまでが大変ですね。。。

処理を比較したら、手元のデータが小さいこともあって、SPSS Modelerの処理とHadoopの処理があんまり変わらなかったです。
むしろコードを書く時間や可読性を考えたら、SPSS Modeler最高となるわけで…

これが、SPSS Modelerで処理できないくらいのボリュームになってくると、Hadoopの意味も出てくるのかもしれません。

nice!(29)  コメント(0)  トラックバック(0) 
共通テーマ:資格・学び