Minkyのよもやま日記：SSブログ

	ブログをはじめるログイン

2015年03月14日｜ 2015年03月15日｜2015年03月16日ブログトップ

【Hadoop MapReduce】ファイル結合　 [Hadoop / Spark]

Hadoopのジョブに対して、ジョブを実行するコマンドとして、
　hs mapper.py reducer.py inputファイル outputディレクトリ
と入力する必要があります。

2つのファイルを結合する場合、ファイルを2つインプットファイルとして処理する必要があります。
その場合、ファイル名の代わりにHDFS内のディレクトリ名を与えるようです。
　hs mapper.py reducer.py inputディレクトリ outputディレクトリ

Hadoopのファイル結合ですが、AとBのファイルを結合する際に
"keyid", "A", "hoge_1", ... "hoge_n"
"keyid", "b", "foo_1", ... "foo_m"
として、reducerに渡して、ソートされた状態を活かしての結合処理すればOK。

2015-03-15 23:59 nice!(30) コメント(0) トラックバック(0)
共通テーマ：資格・学び

2015年03月14日｜ 2015年03月15日｜2015年03月16日ブログトップ