SSブログ

【Hadoop MapReduce】ファイル結合 [Hadoop / Spark]

Hadoopのジョブに対して、ジョブを実行するコマンドとして、
 hs mapper.py reducer.py inputファイル outputディレクトリ
と入力する必要があります。

2つのファイルを結合する場合、ファイルを2つインプットファイルとして処理する必要があります。
その場合、ファイル名の代わりにHDFS内のディレクトリ名を与えるようです。
 hs mapper.py reducer.py inputディレクトリ outputディレクトリ

Hadoopのファイル結合ですが、AとBのファイルを結合する際に
"keyid", "A", "hoge_1", ... "hoge_n"
"keyid", "b", "foo_1", ... "foo_m"
として、reducerに渡して、ソートされた状態を活かしての結合処理すればOK。

nice!(30)  コメント(0)  トラックバック(0) 
共通テーマ:資格・学び