SSブログ

SPSS Clementine(PASWModeler)の文字コード設定 [データサイエンス、統計モデル]

今までは、SPSS Clementine(PASWModeler)でShift_JISの文字コードを扱うことが多かったのだが、サイトカタリストのデータを扱うようになってUTF-8の文字コードを扱う必要が出てきた。

サイトカタリストのraw dataは、UTF-8がデフォルトらしい。。。

そのままクレメンタインで読み込むと、文字化けを起こす。
回避方法としては、
1. いったん、raw dataの文字コードをShift_JISからUTF-8に変更する。
⇒ 面倒くさい。。。

2. SPSS Clementine(PASWModeler)の文字コードの設定を変更する。
がある。


[ストリームのプロパティ]の[オプション]からエンコードを選択。
システムデフォルトをUTF-8に変更すれば、OKである。

では、次のような場合はどうすれば良いのだろうか?
あるテキストファイルは、Shift_JISの文字コードで作成されており、あるテキストファイルは、UTF-8で作成されている。

このような場合は、

入力ノード(可変長ファイル)のエンコードの設定を変更すれば、複数の文字コードのテキストを同時に扱うことができる。

そもそも、文字コードはそろえておいた方が良いんだけどねぇ。。。

nice!(1) 

nice! 1