Excelで類義語辞書を作成してユーザー辞書にインポートする
この記事はSPSS Modeler Premium Ver18.6から追加された日本語テキスト機能を利用して書いています。SPSS Modeler Professionalをお使いの方はアップグレードするかPython連携を用いて実現します。
リソースエディタ上で類義語を追加する方法
1.想定される利用目的
・抽出されたコンセプトの時点で表記の揺れを正規化する
2.ストリームとデータのダウンロード
ストリーム
3.Excelでの類義語の定義とサンプルストリームの説明
類義語と代表語のリストを作成
A列に類義語をB列に代表語をリストします。出来上がったファイルはタブ区切りのtxt形式で保存します。
文字コードをUTF8にする必要があるのでエディタで文字コードを変更して保存します。
リソースエディタからテキストファイルをインポート
a.入力データは以下の通りです。
b.[テキストマイニング]ノードを編集します。[IDフィールド]と[テキストフィールド]を以下の通り選択します。
[モデル]タブを編集します。[抽出結果を利用して...]を選択します。
[実行]します。画面右上のドロップダウンリストから辞書[リソースエディター]を呼び出します。
ファイルをインポート>単一ファイルをインポートを選択します。
類義語定義済みのテキストファイルを選択します。
IBMは既存の定義に追加される形で有効になりました。
SPSS Modelerは新規で追加されました。
注意事項
インポート後はTAP(テキスト分析パッケージ)として保存することで次回以降同じ辞書を使うことができます。
4.参考情報
Python連携によるテキストマイニング
SPSS Modeler ノードリファレンス目次
SPSS Modeler 逆引きストリーム集(データ加工)