はじめに
こちらは、oneWEXの主要機能の一つ、分類器についての記事です。
分類器とは
事前に定義されたクラスに自動的に文書を分類(クラス分け)する機能です。
以下、分類器を適用していないコレクションと適用したコレクションのContent Miner画面です。
適用したコレクションでは「分類」欄が表示されていることがわかります。
分類器の操作概略
-
分類器の作成
あらかじめユーザーは教師データを用意し分類器に読みこませます。分類器内ではトレーニングが行われ文書の分類方法(クラス)を定義したモデルが作成されます。
このトレーニングはユーザーにはブラックボックスです。 -
分類器の適用
ユーザーが、クラス分けが必要な新たなデータを読み込ませてコレクションを作成します。
分類器作成の際に作成されたコレクション・テンプレートを適用させることで、コレクション作成時に文書にクラス分けが適用されます。
分類器の操作手順
以下、分類器の操作手順を説明します。
分類器の作成
1.データのインポート
今回は、以下のような国土交通省のデータを教師データとして使用します。
Admin Consoleをのリソースタブから分類器の「種別の追加」ボタンをクリックします。
あらかじめ教師データとして準備したCSVファイルをインポートします。
ここでインポートしたデータは自動的にデータ・セットとして保存されます。
下画面にスクロールし、プレビュー画面でデータが正常に読み込まれていることを確認し「次へ」をクリックします。
インポートする列のデータのタイプを確認します(例えばreception dateは日付タイプ)。
インポートを開始し保存します(インポート完了まで数分かかることがあります)。
正解フィールドを「defective_device」に設定し「次へ」をクリックします。
この時作成されたコレクションテンプレートは、後のコレクション作成の際に使用します。
下画面にスクロールし、トレーニング用のファセットとして使用するフィールドを選択します。
トレーニングにおいて学習させる必要のないデータはフィールドから外します。
分析用ファセットを確認します(ここでは初期値のままにしておきます)。
2.学習モデルの作成
以下のような画面に遷移します。「新規モデル」ボタンをクリックし学習を開始します。
以下の画面では「データ・セットを比率で分割」を選択します。
学習データ・セットの割合も変更できますが、ここでは初期値のままで「次へ」をクリックします。
データ・セットが作成されると、以下のように分類器についての情報が表示されます。
精度:分類したラベルがどれだけ正しかったかの割合
再現率:正解データのうちどれだけ正しく分類できたかの割合
F1スコア:精度と再現率の調和平均
F1=(2精度再現率)/(精度+再現率)
3.学習モデルのデプロイ
「モデルのデプロイ」を選択します。
これにより、このモデルがコレクションに適用できるようになります。
デプロイをしないと、コレクション作成時に分類器選択画面で今回作成した分類器が表示されません。
内容を確認し、「配布」をクリックします。
「確率しきい値」で予測ラベルを表示する確率(確信度)の閾値を変更できます。
Admin Consoleのリソース表示画面に、作成した分類器が表示されていることを確認します。
分類器を適用させたコレクションの作成
Admin ConsoleもしくはContent Minerにおいて「コレクションを作成」ボタンをクリックし、コレクションの作成を開始します。
分類器の作成時に作成されたコレクション・テンプレートを選択します。
分析用データとして用意したCSVファイルをインポートします。
ここでインポートしたファイルは、自動的にデータ・セットとして保存されます。
下画面にスクロールし、CSVファイルが正常に読み込まれているか確認します。
インポートする列を選択します(日付データがある場合は、タイプを日付に設定します)。
(参考)日付データがある場合は、データ内の日付のフォーマットに従って日付形式を設定します。
ファイルのインポートを開始し保存します(完了までに数分かかることがあります)。
適切なアノテーターを選択し、今回作成した分類器を選択して「次へ」をクリックします。
ファセットを確認し、「次へ」をクリックします。
defective_device_predictedに、分類器により予測されるラベルの値が入ります。
「今すぐ索引付けを実行」を選択し、コレクションを保存してください(索引付けには数分かかることがあります)。
索引付けが完了するまで表示画面には「0%索引付き」と表示されますが、内部で索引付けは進んでいます。完了したら「100%索引付き」と表示されます。
Admin ConsoleまたはContent Minerにおいて作成したコレクションが表示されていることを確認してください。
Content Minerで作成したコレクションの「文書の表示」を選択し「分類」欄に予測ラベルの値が入っていることを確認してください。
予測されたラベルが正しくない場合は、分類器の精度向上を図り、再索引付けを実施する必要があります。
分類器の精度の向上
学習データを追加して精度向上を試みる場合に行う操作を以下で説明します。
Admin Consoleのリソース画面から作成した分類器を選択し、詳細画面の右下の「学習データ・セットの更新」欄の「CSVのアップロード」をクリックしてください。
以下の画面で「開く」ボタンをクリックし、追加の教師データとして用意したCSVファイルをインポートします。
新規モデル(v0.2)が追加されたことを確認し、デプロイしたい場合は「モデルのデプロイ」をクリックします。
モデル(v0.2)がデプロイされたことを確認します。
分類器を適用する際、現在デプロイされているモデルのバージョンだけが適用可能です。
古いバージョンのモデルを適用したい場合は古いバージョンのモデルを再デプロイします。