はじめに
言語翻訳サービスをはじめ、スマートスピーカーやAIアシスタント、チャットボットなど、今や「自然言語処理」を用いた製品・サービスが広く普及する時代となりました。それはビジネス界のみに留まらず、音声操作のできる家電が販売されているように、各家庭の生活にも及んでいます。
ここでの「自然言語処理」とは、日本語や英語のように人間が話す言葉「自然言語」をコンピュータで処理する技術の総称です。(参考[1])
「自然言語」の対比として、コンピュータで用いられる「コンピュータ言語」がありますが、本記事では解説を割愛します。
機械の音声操作が可能になると、エアコンのリモコンを取るために手元の作業を中断したり、細かな移動を繰り返したりする必要がなくなり、簡単に言ってしまえば「便利」になっているわけです。
テキストデータ活用の現状
自然言語処理サービスが普及していく一方で、企業ではテキストデータをまだまだ活用しきれていない現状があります。
総務省が公表している2020年3月発行の調査報告書(参考[2])によると、電子メールの活用率は30%ほど、音声データ・テキストの活用率は20%弱に留まっています。低活用率の背景として推測できるのは、「テキストデータをどう活用したら良いかわからない」「扱えるデータの形になっていない」などが挙げられます。(そのほか、「必要なデータが収集できていない」「どのデータが必要なのか分からない」など)一言で"活用率が低い"といっても、そこには様々な課題を抱えています。
Watson Discoveryでできること
本記事で取り上げる「Watson Discovery」は、データ収集後のテキストデータ活用に関するお困りごとをまるっと解決してくれる製品・サービスです。面倒、されど重要なデータの投入から加工、検索、学習、分析など幅広いフェーズでの課題解決を支援してくれます。
Watson Discovery
Watson Discoveryとは?
テキストデータ活用に必要となる機能をAll in Oneで提供するIBM製のソリューション・サービスです。自然言語処理を活用して、企業におけるデータのサイロ化を解消したり、価値のある埋もれたデータを引っ張り上げたり、データをもとに新たな洞察を示したりする、データ検索及びテキスト分析のプラットフォームです。
参考:Watsonブランド
「Watson」とは、IBM発の人工知能及びサービス・ブランドです。
Watsonブランドサイト "Watsonとは?"
Watsonブランドには「照会応答」や「知識探索」「音声」「言語」など種類も豊富で、本記事のWatson Discoveryはこのうち「知識探索」に分類されています。
(※Watsonサービス・APIを一部抜粋し整理しています。)
テキストデータ活用場面と主要機能の概要
Watson Discoveryが支援しているテキストデータの各活用場面と主要機能を整理します。ここでは、活用場面を**「取り込み」「加工」「エンリッチ」「検索」「学習」「分析」の6場面に分けます。**また、橙色の星印については、次の「主要機能紹介」にてもう少し詳しく整理します。
(※エンリッチ以降の流れは「検索」と「分析」に分岐すると前提を置き、4-a/4-bと表記しています。)
【1】 データの取り込み
必要なデータを収集できている前提で、まずは利用するデータ投入します。
...といっても、PDFやWord、Excel、あるいはBoxなどのファイル共有ストレージなど多様な形式であちらこちらに散らばっていると、どうやってデータを取り込ませたら良いものかと尻込んでしまいますね。
Watson Discoveryでは、多様なデータソースへ簡単に接続でき、また多様な形式のファイルを取り込むことが可能です。
Discovery公式ドキュメント "データ・ソースへの接続"
https://cloud.ibm.com/docs/discovery?topic=discovery-sources
"Box、Salesforce、SharePoint Online、SharePoint 2016、IBM Cloud オブジェクト・ストレージ、および Web Crawl の個々の文書ファイルのサイズ制限は 10 MB です。
データ・ソースごとに、資格情報、ファイルの場所、または URL が必要です。データ・ソースの資格情報、ファイルの場所、および URL は通常、開発者またはシステム管理者が提供します。"
実際にWatson Discoveryで操作をしてみると、データ・ソースを選択する際に、以下の画面が表示されます。
例えば、Box内の文書を取り込ませたいときは、①Boxのアイコンを選択し、その後②必要な情報(公開key、秘密keyなど)を入力、③接続したいフォルダパスを選択の3ステップで簡単に接続することができます。
また、上記のようにデータ・ソースに接続する他に、個別にPDFなどのファイルを取り込ませたいときは、画面の「Upload data」を選択し、その後アップロードしたいファイルを選択することで簡単に取り込みが完了します。
なお対応しているファイル形式は以下になります。
プラン | 対応ファイルタイプ |
---|---|
ライト・プラン | PDF、Word、PowerPoint、Excel、JSON、HTML |
拡張プラン | PDF、Word、PowerPoint、Excel、PNG、TIFF、JPG、JSON、HTML |
インフォメーション
データ・ソースへの接続及びファイルアップロードに関して、ファイルサイズやファイルタイプの制約があります。詳細は公式ドキュメントをご確認ください。
【2】 データの加工
ファイルを取り込んだら、次は効率的な検索ができるようにデータを加工します。Watson Discoveryでは、文書を単にテキストとして取り込むだけでなく、テキストの中でも"エリア"のようなものを個別に設定することができます。(Discovery内では「フィールド」と呼称されます)
例えば、スーパーのマニュアルで、お米5kgの仕入れについてテキスト検索したい際、「5kg」で検索するとしましょう。本当はお米について知りたいのに、エリア分けをしていないと豚肉や砂糖、小麦など他の食品の仕入れマニュアルから同じ5kgを拾ってきてしまい、検索効率が下がってしまいます。
そこで、エリア設定をすることで、お米の仕入れ情報が書いてあるエリアに絞って検索することができ、検索効率が上がります。(フィルタリングのような役割をさせるための、前準備に相当します。)
上記の例のように細かくエリア設定する以外にも、大きな文章のまとまりで「1章」「2章」...のように分けることも可能で、活用したいデータに合わせてカスタマイズすることができます。
【3】 データのエンリッチ
データを加工した後はエンリッチです。エンリッチとは、**テキスト検索時に用いる"タグ付け"**のことです。
上記のイメージ図では直接テキストからキーワードを拾っているように表現していますが、各文書に対してタグをつけ、Watson Discoveryでテキスト検索をする際にはそのタグを辿って検索をしています。
タグ付けには、標準搭載の機能でタグ付けができるほか、辞書や正規表現を登録してカスタムでタグ付けできます。
辞書では、代表語と、その同義語を細かく設定することができます。
また、形式の決まったキーワードを登録したい場合には、正規表現で登録することも可能です。
なおタグ付けするテキストは、表形式のテキストにも適用可能です。
SDU関連機能
まずSDUとは「Smart Document Understanding」の略字で、Watsonが文書構造を理解した取込や検索、エンリッチをし、ユーザが欲しい情報を効率よくかつ迅速に高速に探し出すことを支援してくれる機能です。
例えば、マニュアルなどをスキャナで取り込んだ画像ファイルをDiscoveryにアップロードをすると、「SDU OCR機能」により画像ファイル内のテキストを識別してくれます。また【2】 データの加工内で前述したエリア分けは、この「SDU 文書分割機能」に該当します。さらに、SDUでは文書中のテーブル(表)の行列やラベル構造を理解する「SDU 表の理解」「SDU タグ付け」機能があります。
これら各種機能により、検索時に不必要な情報である”ノイズ”を除外し、意味のあるまとまりで文書を理解することで、効率的な検索ができるようになります。
【4-a】 データの検索
データの取り込みから加工、エンリッチを経て、続いて検索です。検索の場面ではテキスト検索を支援する多数の機能が備わっています。
検索したキーワードから動的に検索の切り口(Watson Discoveryでは「ファセット」と呼称されます)を生成したり、辞書登録のキーワード候補を推奨したり、さらにはWatson Assistantと連携して会話検索を行う機能があります。
また、単語あるいは短文でピンポイントで検索結果を回答してくれる「Answer Finding」や、集計や結果セットの編集ができる「Discovery Query Language」といった機能もあります。
Dynamic Facets
追記:Dynamic Facetと、関連するsuggested_refinements
のAPIクエリパラメータは、2021年7月13日付のリリースでサポートから外れるとの発表がありました。
IBM Cloud公式ドキュメント "Release notes for IBM Watson™ Discovery Cartridge for IBM Cloud Pak® for Data"
https://cloud.ibm.com/docs/discovery-data?topic=discovery-data-release-notes-data&locale=en#release-notes-data-13july2021
Dynamic Facetsでは、検索キーワードから動的に「ファセット / facet」と呼ばれるカテゴリー情報を生成することができます。そのファセットを選ぶことによって更に検索結果を絞り込み、目的の情報に効率よくたどり着けるよう支援してくれます。
以下のWatson Discoveryのスクショでは、右側にDiscoveryの検索結果を表示、左側にフィルタリングのような機能を担うチェックボックスのリストが記載されています。ちょうど青枠で囲ったところに自動で生成されたfacetが一覧表示されています。
Dictionary Suggestions
Dictionary Suggestionでは、辞書に登録したキーワードを元に、類似の文脈から辞書登録候補を自動でリコメンドしてくれます。
辞書登録の際、一つひとつのキーワードを登録するとかなり手間がかかり、また登録するキーワード登録の抜け漏れが発生することもあります。そこで、Dictionary Suggestionsを活用することで、効率よく、かつ抜け漏れを抑えて辞書登録できることが期待されています。
例えば、以下の辞書登録画面では、自動車の不具合箇所を示すパーツ関連の辞書として「ブレーキ」という単語を登録しています。すると、同じテキストデータ内の、類似文脈で使われていた「ブレーキパッド」「キャリパー」「absユニット」といったキーワードを類推し、自動検出してくれます。
また、リコメンドされたキーワードの辞書追加も簡単で、登録候補のキーワードのすぐ隣のアイコンからワンクリックで辞書に追加することができます。
【5】 学習
さらに、データの検索に続けて、欲しい情報を検索結果の上位に表示できるよう、クエリと文書の関連性を学習する機能があります。関連性の学習では、検索したい文書と検索結果としてWatson Discoveryが提示した文書について「関連していた」「関連していなかった」の2択でフィードバックを返すことで、Watson Discoveryが検索ワードにより関連している文書を優先的に表示するように学習していきます。
Relevancy Training
Relevancy Trainingは、検索結果に対して、ユーザが「この結果は期待するものだったか?」をフィードバックすることにより、Watsonが検索キーワードと文書の関連性を学習し、最適な順位で結果を表示できるよう学習する機能です。
フィードバックは2択式で簡単にできます。「関連性が高い」を意味するRelevant、あるいは「関係性がない」を意味するNoRelevantの2択で評価することができます。評価を元に、関連性の高い回答を学習し、検索対象に対して最適なランキングモデルの育成していきます。これにより、検索精度が向上し、よりユーザが迅速に正しい回答を得られるように支援してくれます。
【4-b】 分析
最後に分析では、大量のドキュメントから洞察を得るよう支援してくれる機能があります。Watson Discoveryは大量のテキストデータの中からどのキーワードに着目したら良いのか示し、データ分析の経験年数によらず、ユーザの知見獲得を支援します。
Guided Mode
Guided Modeとは、Watsonが大量のテキストから着目すべきキーワードを可視化しながら推奨し、ユーザがテキストデータから知見を獲得をすることを支援してくれる機能です。
以下はテキスト分析画面、特にガイド付きモードの画面です。
テキスト分析画面のメニュー項目を選択すると、次に絞り込む選択肢の候補を自動で出してくれます。その選択肢を選んでいくだけで、どんどん深掘りすることができ、特長的なキーワードやそれが使われている本文などの情報から知見や洞察を得ることができます。
一般的に、大量のテキストデータから洞察を得ることは容易ではありませんが、だからこそ、この「Guided Mode」(ガイド付きモード)を使用することで、分析初心者でも大量データから重要な知見や洞察を得られるよう支援してくれます。
Watson Discoveryの特徴まとめ
様々な機能を紹介しましたが、改めてWatson Discoveryで何ができるのか、以下の5つに絞って最後のまとめとします。
- 外部データソースへ簡単に接続ができる
- 文書構造を理解したテキスト識別ができる
- 標準あるいはカスタムでメタ情報を抽出できる
- ユーザーが欲しい情報を検索結果の上位に表示できる
- そして、大量のドキュメントから気づきを得られる
おわりに
本記事でご紹介しきれなかった機能もあります。詳細は公式ホームページまたは公式ドキュメントをご確認いただければ幸いです。私自身、実際にWatson DIscoveryを触り始めたのはここ2-3ヶ月の話ですが、初心者でも直感的に操作できる画面設計となっており、またCurlコマンドでの操作も分かりやすい印象でした。個人的な感想として、データ分析の経験年数を問わず幅広いユーザが利用できるソリューション・サービスだと感じました。Watson Discoveryが眠っているデータを掘り起こし、データ活用を望む多くの方々の新たな価値創造につながる発見を得られるよう、今後ますますのアップデートを期待するばかりです。
###お断り
:::note warn
このサイトの掲載内容は私自身の見解であり、必ずしも所属会社の立場、戦略、意見を代表するものではありません。 記事は執筆時点の情報を元に書いているため、必ずしも最新情報であるとはかぎりません。 記事の内容の正確性には責任を負いません。自己責任で実行してください。
:::
参考サイトなど
-
[1]坪井祐太氏. “機械による自然言語処理 言葉を扱う技術とビッグデータの接点”.
IBM PROVISION No.83. Fall 2014.
https://www.ibm.com/downloads/cas/X1BW4VQ7, (最終アクセス2022-01-04) -
[2]株式会社 情報通信総合研究所. "デジタルデータの経済的価値の計測と活用の現状に関する調査研究の請負報告書". 総務省 情報流通行政局情報通信政策課情報通信経済室. 2020年3月:https://www.soumu.go.jp/johotsusintokei/linkdata/r02_05_houkoku.pdf,(最終アクセス2022-01-04)
-
「Watson Discovery」公式ホームページ:https://www.ibm.com/jp-ja/cloud/watson-discovery
-
「Watson Discovery」公式ドキュメント(英語版):https://cloud.ibm.com/docs/discovery?topic=discovery-getting-started&locale=en
-
「Watson Discovery」公式ドキュメント(日本語版):https://cloud.ibm.com/docs/discovery?topic=discovery-getting-started