0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

oneWEXの操作メモ_分類器⑴

Last updated at Posted at 2019-11-08

はじめに

こちらは、oneWEXの主要機能の一つ、分類器についての記事です。

分類器とは

事前に定義されたクラスに自動的に文書を分類(クラス分け)する機能です。

以下、分類器を適用していないコレクションと適用したコレクションのContent Miner画面です。
適用したコレクションでは「分類」欄が表示されていることがわかります。

・適用していないコレクション
スクリーンショット 2019-11-07 16.50.19.png

・適用したコレクション
スクリーンショット 2019-11-07 16.50.33.png

分類器の操作概略

  1. 分類器の作成
    あらかじめユーザーは教師データを用意し分類器に読みこませます。分類器内ではトレーニングが行われ文書の分類方法(クラス)を定義したモデルが作成されます。
    このトレーニングはユーザーにはブラックボックスです。

  2. 分類器の適用
    ユーザーが、クラス分けが必要な新たなデータを読み込ませてコレクションを作成します。
    分類器作成の際に作成されたコレクション・テンプレートを適用させることで、コレクション作成時に文書にクラス分けが適用されます。

スクリーンショット 2019-11-07 16.56.23.png

分類器の操作手順

以下、分類器の操作手順を説明します。

分類器の作成

1.データのインポート

今回は、以下のような国土交通省のデータを教師データとして使用します。
image.png

Admin Consoleをのリソースタブから分類器の「種別の追加」ボタンをクリックします。
image.png

分類器の名前を入力し「次へ」ボタンをクリックします。
image.png

あらかじめ教師データとして準備したCSVファイルをインポートします。
ここでインポートしたデータは自動的にデータ・セットとして保存されます。
image.png

各種設定を選択します。
image.png

下画面にスクロールし、プレビュー画面でデータが正常に読み込まれていることを確認し「次へ」をクリックします。
image.png

インポートする列のデータのタイプを確認します(例えばreception dateは日付タイプ)。
image.png

インポートを開始し保存します(インポート完了まで数分かかることがあります)。
image.png

正解フィールドを「defective_device」に設定し「次へ」をクリックします。
この時作成されたコレクションテンプレートは、後のコレクション作成の際に使用します。
image.png

以下のように各フィールドを設定します。
image.png

下画面にスクロールし、トレーニング用のファセットとして使用するフィールドを選択します。
トレーニングにおいて学習させる必要のないデータはフィールドから外します。
image.png

利用するアノテーターを選択し「次へ」をクリックします。
image.png

分析用ファセットを確認します(ここでは初期値のままにしておきます)。
image.png

各種設定を確認し「保存」ボタンをクリックします。
image.png

2.学習モデルの作成

以下のような画面に遷移します。「新規モデル」ボタンをクリックし学習を開始します。
image.png

以下の画面では「データ・セットを比率で分割」を選択します。
学習データ・セットの割合も変更できますが、ここでは初期値のままで「次へ」をクリックします。
image.png

データ・セットが作成されるまで数分かかります。
image.png

データ・セットが作成されると、以下のように分類器についての情報が表示されます。
精度:分類したラベルがどれだけ正しかったかの割合
再現率:正解データのうちどれだけ正しく分類できたかの割合
F1スコア:精度と再現率の調和平均
F1=(2精度再現率)/(精度+再現率)

image.png

3.学習モデルのデプロイ

「モデルのデプロイ」を選択します。
これにより、このモデルがコレクションに適用できるようになります。
デプロイをしないと、コレクション作成時に分類器選択画面で今回作成した分類器が表示されません。
image.png

内容を確認し、「配布」をクリックします。
「確率しきい値」で予測ラベルを表示する確率(確信度)の閾値を変更できます。
image.png

Admin Consoleのリソース表示画面に、作成した分類器が表示されていることを確認します。
image.png

分類器を適用させたコレクションの作成

Admin ConsoleもしくはContent Minerにおいて「コレクションを作成」ボタンをクリックし、コレクションの作成を開始します。
image.png

分類器の作成時に作成されたコレクション・テンプレートを選択します。
image.png

コレクション名を記入し「次へ」ボタンをクリックします。
image.png

分析用データとして用意したCSVファイルをインポートします。
ここでインポートしたファイルは、自動的にデータ・セットとして保存されます。
image.png

各設定を行います。
image.png

下画面にスクロールし、CSVファイルが正常に読み込まれているか確認します。
image.png

インポートする列を選択します(日付データがある場合は、タイプを日付に設定します)。
image.png

(参考)日付データがある場合は、データ内の日付のフォーマットに従って日付形式を設定します。
image.png

ファイルのインポートを開始し保存します(完了までに数分かかることがあります)。
image.png

各フィールドを設定します。
image.png

適切なアノテーターを選択し、今回作成した分類器を選択して「次へ」をクリックします。
image.png

ファセットを確認し、「次へ」をクリックします。
defective_device_predictedに、分類器により予測されるラベルの値が入ります。
image.png

「今すぐ索引付けを実行」を選択し、コレクションを保存してください(索引付けには数分かかることがあります)。
image.png

索引付けが完了するまで表示画面には「0%索引付き」と表示されますが、内部で索引付けは進んでいます。完了したら「100%索引付き」と表示されます。
image.png

Admin ConsoleまたはContent Minerにおいて作成したコレクションが表示されていることを確認してください。
image.png

Content Minerで作成したコレクションの「文書の表示」を選択し「分類」欄に予測ラベルの値が入っていることを確認してください。
予測されたラベルが正しくない場合は、分類器の精度向上を図り、再索引付けを実施する必要があります。
image.png

image.png

分類器の精度の向上

学習データを追加して精度向上を試みる場合に行う操作を以下で説明します。

Admin Consoleのリソース画面から作成した分類器を選択し、詳細画面の右下の「学習データ・セットの更新」欄の「CSVのアップロード」をクリックしてください。

image.png

以下の画面で「開く」ボタンをクリックし、追加の教師データとして用意したCSVファイルをインポートします。
image.png

新規モデル(v0.2)が追加されたことを確認し、デプロイしたい場合は「モデルのデプロイ」をクリックします。
image.png

以下の画面で「配布」をクリックします。
image.png

モデル(v0.2)がデプロイされたことを確認します。
分類器を適用する際、現在デプロイされているモデルのバージョンだけが適用可能です。
古いバージョンのモデルを適用したい場合は古いバージョンのモデルを再デプロイします。
image.png

精度が向上したモデル(v0.2)をコレクションに適用させるため、コレクション画面で索引の再作成を行います。
image.png

0
0
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?