Posted at

Watson Discovery へFAQデータを取り込んでみる


はじめに

昨年(2018年)の10月から11月にかけて、FAQ集をWatson 使ってどのように活用できるか試行錯誤 しました。その時は Watson Discovery を FAQ 集活用のために使うことは難しい、と判断しました。2019年2月に Smart Document Understanding (SDU) が実装されたため、再度試すことにしました。


  • 注意:将来的に何らかのアプリケーションをリリースすることをお約束する記事ではありません。


使用する素材

Zend Server for IBM i という、IBM i 上で PHP 実行環境を構築・運用するための製品があります。前回試した時と同様に、その製品の FAQを用いることにしました。緑色の四角で囲んだページを使用しました。みなさんが試すときは、ご自分の会社、組織、団体で著作権をお持ちの FAQ データで試してみてくださいね。

32a.png

Web Crowl (beta) 機能では、SDU が使用できません。そのため、Excel に FAQ のテキストをコピーし、縦長の同一ページ内に質問と回答が横に並んでいるように整え、PDF 形式へエクスポートしてから取り込むことにしました。

Excel 形式のまま取り込むこともできますが、質問と回答が別のページに分かれてしまうことがあります。(セル内のテキストが多いため?)

扱いづらいため、PDF 形式にすることにしました。

FAQのカテゴリーを分けていましたが、そのカテゴリー名も取り込み対象にしました。この画像の例では、50行目のように質問の列に記載があって回答の列に記載がない場合に該当します。試してみた結果からいうと、ラベル付け作業のしやすさの点ではカテゴリー名を別の列に分けたり、書式を変えたほうが良かったですね。

33a.png


取り込み作業

FAQ 集を取り込むためのコレクションを作ります。情報通信白書を題材に Smart Document Understanding を使ってみた と同じ作業なので、軽く流していきます。

30a.png

名前は、zendfaq としました。

31a.png

雲の画像が出てきたので

35a.png

PDF 形式にエクスポートしたファイルを指定します。

36a.png


ラベル付け

取り込みが完了したら、Overview タブで上向き矢印で示した Add fields リンクをクリックします。

37a.png

ラベル付けする画面が表示されます。この記事で使用するラベルは、右向き矢印(丸1)で示した3種類です。FAQ 集なので、質問および回答をそれぞれ1件ごとに範囲指定してanswer および question ラベルを付けていきます。FAQ のカテゴリーのラベル付けには subtitle を使用しました。

最初のページは手間がかかりますが、2ページ目以降からは自動でラベル付けされた箇所が多くなっていきます。そのため、作業を進めるごとにラベル付けの手間は減っていきます。各ページのラベル付けができたら下向き矢印で示した Submit page(丸2)ボタンを押して次のページへ移ります。最後のページまで来たら、左上の Enrich fields タブ(丸3)を選択します。

38a.png

この記事では、text は使いませんので、text に対するエンリッチメントの定義は削除してしまいましょう。代わりに左向き矢印で示した入力欄で answer と question を追加します。それぞれ、Keywords extraction(キーワード抽出)および Entities extraction(エンティティ抽出)を追加しましょう。

40a.png

下向き矢印(丸1)で示したようにエンリッチメントを追加しました。次に上向き矢印(丸2)で示した Manage fields タブを選択します。

41a.png

FAQ のカテゴリーをラベル付けするために使用した subtitle で文書を分割することにします。右向き矢印(丸1)の入力欄で指定します。最後に右上の右向き矢印(丸2)で示した Apply change to collection ボタンを押します。

42a.png

処理が完了すると、subtitle を8か所で使用したので、文書が9件に分割されます(丸1)。fields が4種類と表示されます(丸2)。スキーマを確認してみましょう(丸3)

45a.png


スキーマおよびクエリー確認

分割されたそれぞれの文書に含まれる field を View data scheama の画面で確認できます。左向き矢印で Build Query の画面も確認してみましょう。

46a.png

Build Query では、answer、question および subtitle を使用して問い合わせができるようになりました。前回試した時は、キーワード一致した前後が表示される全文検索のようなものだったのですが、条件指定して絞り込みできるようになりました(丸1)。結果の表示も、ラベル付けの時に範囲指定しながら指定した answer および question 1件単位で表示されるようになり、見やすくなりましたね(丸2)。

この記事の画像の入力画面および結果画面であれば、データベースのカラムにデータを突っ込んで SQL 検索することでも実現できそうですが、前回試した時に比べて SDU による恩恵を実感できました。

47a.png


まとめ

前回 FAQ 集の活用を考えた時は、各質問のカテゴリー分けを NLC に覚えさせて、「ここに目的の質問の答え載ってますよ」と掲載ページを案内する使い方が現実的かな、Watson Discovery はまだ使いにくいな、と考えていました。

SDU 実装による機能改善が実感できたので、考えを見直す機会にしたいと思います。