SSブログ

半角カナと全角カナの結合 ~失敗編~ [データサイエンス、統計モデル]

ファイル1とファイル2を結合して、次の様なテーブルを作りたい。

ファイル1とファイル2

結合されたテーブル

間違い探しのようになるが、
【ファイル1】
key レコード1
ゼクシィ 1
ゼクシィ 2
ゼクシィ 3

【ファイル2】
key レコード2
ゼクシィ 11
ゼクシィ 13
ゼクシイ 14

【結合されたテーブル】
key レコード1 レコード2
ゼクシィ 1 11
ゼクシィ 2 null
ゼクシィ 3 13
ゼクシイ null 14

となっている。

まずは、"Microsoft Office Access 2007"で結合させるとどんな結果になるか。

Microsoft Office Access 2007での結合結果

このように半角とか全角とか混同されて結合されてしまっている。
このあたりは予想通りというか、なんというか。。。

次に、"IBM SPSS Modeler(旧 Clementine)"を使って結合してみる。

IBM SPSS Modeler(旧 Clementine)の失敗ストリーム

まずは、単純に結合ノードで結合してみる。
内部結合だろうが、外部結合だろうが、結果はうまく行かない。

IBM SPSS Modeler(旧 Clementine)での結合結果

この結果をみると、、、

まず、2行目の"ゼクシィ(ィは、半角カナ)"が勝手に"ゼクシィ(ィは、全角カナ)"に置換されています。
う~ん、勝手に半角カナを全角カナに変更しちゃっているし。。。
レコード2の部分もnullではなく、11って数字が入っています。

このように勝手に置換されてしまっては、その後どう処理してもダメです。

以上の結果から、いきなり結合ノードを使うのは、失敗!ってことになります。

少しトリッキーな処理になりますが、下記のようにすれば思った結合ができます。

IBM SPSS Modeler(旧 Clementine)の正しいストリーム

続きは明日…

関連ブログ: 半角カナと全角カナの結合 ~成功編~
http://skellington.blog.so-net.ne.jp/2011-05-31

nice!(32)  コメント(2)  トラックバック(0) 
共通テーマ:学問

nice! 32

コメント 2

misa10

へ~。
なにげに、続きが気になる。
by misa10 (2011-05-30 19:23) 

Minky

nice&コメントありがとうございます。

> misa10 さん
続きをアップしましたので、ご確認お願いします。
m(_ _)m
by Minky (2011-05-31 14:44) 

トラックバック 0