More than 3 years have passed since last update.

Discovery Premiumやってみた　〜Classifier編〜

Last updated at 2021-06-18Posted at 2021-06-18

Watson DiscoveryのPremiumプランで提供されている機能を使ってみました。
今回はClassifierという機能です。

Classifierって何？

分類器です。
ある文章に対して、その文章がどのカテゴリーに該当するかを分類するものです。
サンプル文とそのカテゴリーを紐づけた教師データを準備し、教師データを元に学習させたモデルを使って、新しい文がどのカテゴリーに該当するかを分類するものです。

Discoveryには2種類のClassifierがある

マニュアルによるとWatson Discoveryには2種類のClassifierがあるようです。

text classifer　

Discoveryの画面から作った分類器で、品詞のみを使って分類するもの。

document classifier

Content Miningの画面から作った分類器で、品詞情報に加えて他のメタ情報も使って分類するもの。

この記事では、主にText Classifierについて紹介します。
ところで、Discoveryの画面とContent Miningの画面って何？と思われていると思いますので、軽く紹介します。

Discoveryの画面はこれです。
主に検索を目的としたDocument Retrievalプロジェクトで使用する画面です。

Content Miningの画面はこれです。
主にテキストマイニング（データ分析）を目的としたContent Miningプロジェクトで使用する画面です。

それぞれの画面からClassifierを作ることができ、

Discoveryの画面から作るものを text classifier
Content Miningの画面から作るものを document classifier
というみたいです。それぞれ準備する教師データも違いそうですね。

Text Classifier やってみた

マニュアルの手順はこちら。
今回は英語のサンプルを使いましたが日本語にも対応しています。

教師データのサンプル

サンプル文と正解ラベルの教師データを準備します。
ここではお客様からのクレームの声に対して、クレームの種類の正解ラベルを作成し、分類を行います。
下はサンプルなので件数少なめですが実施はもっとあります。
1つの正解ラベルに対して少なくとも10個のサンプル文は準備した方が良いとマニュアルに記載がありました。
1つサンプル文に対して複数の正解ラベルをつけることもできるようですが、今回は１つのみです。

サンプル文	正解ラベル
The straw was peeled off from the juice pack.	package_container
I got some ice cream for my children, but there was something like a piece of thread inside the cup.	contamination_tampering
I could only find 11 cups in the 12-pack.	amount.shortage
There was a stain on the package that seemed to be caused by a leak. Is it safe to drink?	package_container.leak
I love the ads for the new milk chocolate. Could you tell me the name of the actor in the commercial?	ads
：	：

注意

教師データはUTF-8のCSV形式
ヘッダー行は無し
1つのラベルに対して少なくとも3つのサンプル文が必要

Text Classiferの作成

未分類のデータはDiscoveryに投入済みです。
Discoveryの画面から作ります。
「Improvement tools」の「Teach domain concepts」を開き「Classifiers」をクリック。

右上のUploadをクリックします。

適当な名前をつけて、言語を選択して、教師データのcsvをアップロードして、Createをクリック。

どのコレクションのどのフィールドに対して分類したいかを選びApplyをクリック。

裏で索引付が行われるのでしばらく待ちます。

Text Classifierの結果確認

準備が整ったらDiscoveryの画面から適当な文書の詳細をみてみましょう。
View passage in documentをクリック。

結果の詳細を確認すると、、、
"I like to buy pastry made by ABCDE confectionery company. Sometimes there is almost no jam at all."というテキストに対してamount.shortageが確信度0.9187で分類されました！
うん、うん、ジャムがないと言っているので分類結果としてamount.shortageはあってそう。

簡単でしたね。

Document Classifier の紹介

次は、Document Classifierです。
マニュアルの手順はこちら。
今回は英語のサンプルを使いましたが日本語にも対応しています。

教師データ

Document Classifierはメタデータも学習に使ってくれるということなのでこんなサンプルを準備しました。

このようなデータを使ってlabelを予測する分類器を作るわけですが、idやdateなどは学習データに使ってもあまり意味なさそうですねぇ。
でも大丈夫です！Document Classifierを作るときにどの項目を学習に使うか使わないなの取捨選択ができます！
重要なことは、Discoveryに投入する項目と教師データで投入する項目が同じである必要があります。
https://cloud.ibm.com/docs/discovery-data?topic=discovery-data-contentminerapp&locale=ja#create-doc-classifier

id	date	productLine	product	membership	location	gender	age	text	label
0	2016/1/1	Tea	lemon tea	Not Member	Manhattan	Male	20	The straw was peeled off from the juice pack.	package_container
1	2016/1/2	Ice cream	vanilla ice cream	Silver Card Member	Queens	Female	40	The cup looked like it was already opened. Is it safe?	prank
2	2016/1/3	Jelly	apple jelly	Gold Card Member	Brooklyn	Male	50	I could only find 11 cups in the 12-pack.	amount.shortage
：	：	：	：	：	：	：	：	：	：

Document Classifierの作成

Document Classifierの作成手順についてはちょっと長くなりそうなので別の記事で改めて書きたいと思っています。
参考資料として、別製品で実施した手順が既にQiitaで公開されており、大体手順は同じですので今はそちらをご参照ください。

oneWEXの操作メモ_分類器⑴
https://qiita.com/sawa7/items/2ee71d3ac34231daf2ac

Document Classifierの結果確認

結果についてもこちらをご参照ください。