Watson NLC Toolkitとは

Watson Natural Language Classifier (NLC)は機械学習を使ってテキスト分類を行うサービスです。詳細は以前の記事「密かに日本語化されたWatson Natural Language Classifier (NLC)でテキスト分類」をご覧ください。この記事にもありますが、NLCを利用するには以下の3ステップを行う事になります。

トレーニングデータ(CSV)の作成
分類器の作成とトレーニング開始、利用可(avaiable)まで待機
分類器の使用

これらの各ステップをブラウザベースで容易に行うことができるようにするツールがNLC Toolkitです。

NLC Toolkit利用の基本的な流れと注意事項

NLC Toolkitは、オリジナルのリポジトリからクローンを作成、Bluemixに配置すれば、利用できるようになります。

ただし、いくつか注意点があります。ひとことでいえば課金に要注意ということです。

Bluemix上で動作させるアプリケーションですので、リソース利用課金が発生します。
Cloudantを使いますので、サービス利用課金が発生します。
使いやすいということでNLCトレーニングを多数行った場合、月内5回目以降あNLCのサービス利用課金が発生します。

さて、こうしたことをふまえて、実際にNLC Toolkitを導入してみましょう。

NLC Toolkitの導入

事前に準備するもの

以下のものは事前に準備しておいてください。

Bluemixアカウント(Bluemix DevOps Servicesも同じID)

プロジェクトのクローンと初回デプロイ

まず、ツールのテンプレートとなるリポジトリを開きます。

この状態でファイル構成の下にある説明まで下がっていくと、「Deploty to Bluemix」というボタンが出現します。

これをクリックすると、このプロジェクトをBluemixへデプロイするための画面に遷移します。アプリケーション名(ホスト名にもなります)が生成されていますので、必要であれば変更してください。また、Bluemixのリージョン、組織(organization)、スペースも必要に応じて変更してください。なお、Bluemixのセッションが切れている場合はこの画面の前にBluemixへのログインを要求されます。

ここで「DEPLOY」をクリックすると、DevOps Servicesはログインしているユーザのリポジトリを作成し、ビルドし、指定されたアカウント、リージョン、組織、スペースへのデプロイを行います。すべて成功した場合には次のような画面になります。

この時点で、すでにアプリケーションは起動しており、「VIEW YOUR APP」をクリックすると、アプリケーションのログイン画面が開きます。一方、「EDIT CODE」をクリックすると、DevOps Servicesのプロジェクトが開きます。

それでは、「VIEW YOUR APP」をクリックして、ログイン画面(http://<アプリケーション名>.mybluemix.net/login)を開いてみましょう。

ログイン画面にはユーザ名とパスワードがあります。ここには何を入れればいいのでしょうか? そのこたえは、NLCの認証情報(credentials)です。認証情報を確認するには、Bluemixのダッシュボードでアプリケーションの環境変数を表示します。環境変数VCAP_SERVICESの中身であるjsonに埋め込まれている、natural_language_classifierの中のcredentialsの中にあるusernameとpasswordが必要な情報です。

さて、Bluemixダッシュボードからユーザ名とパスワードを確認できたら、それらの情報を先ほどのログイン画面に入力します。

トレーニングデータのインポートと日本語での問題

無事にログインすることができたら、事前に準備したトレーニングデータ(CSV)をこのツールにインポートします。

右上の「Training」をクリックし、トレーニングタブにうつる
左上の「Import」をクリックし、トレーニングデータファイルを選択してデータのインポートを行う(まだトレーニングは行われていません)

ここで、右上の「Train」ボタンをクリックし、言語と分類器の名前(任意の名前)を指定すれば、トレーニングが行われるはずなのですが、残念ながら日本語のクラス名では次のようにエラーとなってしまいます。

この問題は、NLC ToolkitがNLCの多言語対応に追随できておらず、クラス名が英数字等に限る、という以前の仕様のままである、ということに起因しています。

日本語対応のための修正と再デプロイ

それでは、ソースを修正して、前述の問題の原因となっている文字種類チェックを削除してしまいましょう。また、このエラーを解消した後に、実はもう1点問題が生じますので、それもついでに解決しておきます。

まず、Bluemixダッシュボードでアプリケーションの画面を開き、アプリケーション名のすぐ下にある「GIT URL」またはその横の「コードの編集」からIBM Bluemix DevOps Servicesに遷移します。

左側のファイルツリーで、client/app/training/training.controller.jsを開き、以下の2点を修正します。

[修正1] 英数字チェックの削除
[修正2] メタデータに埋め込む言語の種類を「en」から「ja」に変更

[修正1] 英数字チェックの削除

935〜945行目(2015/10/7現在)を削除します。以下の部分です。

-        // if some invalid characters have been used, do not allow the training to go ahead.
-         // Inform the user using a dialog box and closr the box when they confirm they have read it.
-         for (i = 0; i < $scope.classes.length; i++) {
-           if ($scope.numberTextsInClass($scope.classes[i]) > 0 && !$scope.classes[i].label.match('^[a-zA-Z0-9_-]*$')) {
-             validationIssues++;
-             msg = inform('The ' + $scope.classes[i].label + ' class has invalid characters. Class values can include only alphanumeric characters (A-Z, a-z, 0-9), underscores, and dashes.');
-             ngDialog.open({template: msg, plain: true});
-             return $q.when();
-           }
-         }

[修正2] メタデータに埋め込む言語の種類を「en」から「ja」に変更

トレーニングAPIに送るメタデータには言語指定がありますが、オリジナルは「en」(英語)固定であり、このままではAPIが日本語としてのトレーニングを行ってくれないようです。したがって、選択肢を「ja」(日本語)固定にします。(もちろん選択にすることも可能です)

270〜280行目(2015/10/7現在)が対象となります。

-         { label: 'English', value: 'en' }//,
+         // { label: 'English', value: 'en' }//,
...
-         // { label: 'Japanese', value: 'ja' },
+          { label: 'Japanese', value: 'ja' }//,