【Hadoop MapReduce】最終課題に向けて [Hadoop / Spark]
Hadoopの勉強もだいぶ終盤に差し掛かっていて、いよいよ最終課題を残すのみとなりました。
Hadoopが難しいというよりかは、Python特有の癖みたいなのを把握するのに苦労しました。
SPSS Modeler(Clementine)でストリームを書くと1分くらいで書けちゃう処理を、MapReduceプログラムで書くと丸々二日かかったりと。。。
それが、急に視界が開けてきて、最近では、数十分程度で書けるようになってきました。
こういうプログラムって慣れるまでが大変ですね。。。
処理を比較したら、手元のデータが小さいこともあって、SPSS Modelerの処理とHadoopの処理があんまり変わらなかったです。
むしろコードを書く時間や可読性を考えたら、SPSS Modeler最高となるわけで…
これが、SPSS Modelerで処理できないくらいのボリュームになってくると、Hadoopの意味も出てくるのかもしれません。
Hadoopが難しいというよりかは、Python特有の癖みたいなのを把握するのに苦労しました。
SPSS Modeler(Clementine)でストリームを書くと1分くらいで書けちゃう処理を、MapReduceプログラムで書くと丸々二日かかったりと。。。
それが、急に視界が開けてきて、最近では、数十分程度で書けるようになってきました。
こういうプログラムって慣れるまでが大変ですね。。。
処理を比較したら、手元のデータが小さいこともあって、SPSS Modelerの処理とHadoopの処理があんまり変わらなかったです。
むしろコードを書く時間や可読性を考えたら、SPSS Modeler最高となるわけで…
これが、SPSS Modelerで処理できないくらいのボリュームになってくると、Hadoopの意味も出てくるのかもしれません。