SSブログ

半角カナと全角カナの結合 ~成功編~ [データサイエンス、統計モデル]

ファイル1とファイル2を結合して、次の様なテーブルを作りたい。

ファイル1とファイル2

結合されたテーブル

【step1】
文字列をキーにして結合をすると、失敗する!
そこで、indexを付与してあげれば良いのだが、どちらのファイルに属するかを判断したいので、片方のindexは、もう片方よりも大きなindexをつけてあげる。
レコード結合
レコード結合
後のステップで、キーとキーの結合ではなく、indexとindexの結合をするようなストリームを作成すればよい。

【step2】
結合ノードは、全角と半角がグチャグチャになってしまうけど、集計ノードはきちんと集計されるようだ。
レコード集計
そこで、いったんレコード結合ではなく、レコード追加を実行した後に集計を行う。

レコード集計の中身は、こんな感じ。↓
レコード集計
この時に最小と最大にチェックをしておくこと。

レコード集計
そして、index_Minとindex_Maxで異常値は、-1と補正しておけばよい。

ここまでで作成されたテーブルを確認すると

となっている。

【step3】
ここまでできれば、後は、【step1】で作成したindex同士を結合すれば、OK!

結合する際、内部結合ではなく、部分外部結合で結合する必要がある。

主となるファイルを間違えないように結合すれば、終了。

結果は、想定した通りの
結合されたテーブル
というファイルが出てくる。

関連ブログ: 半角カナと全角カナの結合 ~失敗編~
http://skellington.blog.so-net.ne.jp/2011-05-30

nice!(37)  コメント(2)  トラックバック(0) 
共通テーマ:学問