More than 5 years have passed since last update.

Watson Knowledge Studio 〜プレアノテーションをやってみた〜

Posted at 2019-06-10

記事の目的

　著者はWatson Knowledge Studio(以降、WKSと記載)を使用した検証を行う機会がよくありますが、検証の際、よく使用する機能(または操作手順)であるけれど、日本語でわかりやすく解説された情報がないものについて幾つかQiitaに投稿していこうと思います。この記事は「Watson Knowledge Studio 〜ワークスペースの環境移行手順〜」に続く第二弾となります。かなり間があいてしまいました...；
　プレアノテーションには、予め登録された辞書をもとに新規文書へアノテーションを行う辞書によるプレアノテーションと、作成済みの学習モデルによりアノテーションを行う学習モデルによるプレアノテーションがあります。プレアノテーションを実施する動機としては下記が考えられます。

学習文書に一からアノテーションするのがめんど臭い
アノテーションを一貫性を持って実施したい

以降において、①辞書によるプレアノテーションと②学習モデルによるアノテーションの手順を記載し、最後にそれぞれの使い分けについて言及します。

前提知識

本記事では、WKSの概要や基本的な操作についついては記載しておりません。必要に応じて、参考リンクに記載の情報をお読みください。

参考リンク

①辞書によるプレアノテーション

辞書によるプレアノテーションは、辞書が登録されていることが前提となります。ここでは、サッカーのポジション名やチーム名といった各Entityに対応する辞書情報が既に登録されているとします。 ![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/299863/0e8b6172-633d-4ea4-e29c-2272966803d3.png)

まずは、新規の学習文書を追加してみましょう。学習文書は2列のcsvファイルで、１列目に選手名を２列目にWikipediaのテキスト情報の抜粋を記載しています。

上記のcsvファイルを下記の手順でWKSにアップロードします。

正常にアップロードされました。WKSに読み込まれた段階では、当然アノテーションされていません。

それでは、下記の手順でプレアノテーションを実行してみましょう。

「Run」の実行後、辞書によるプレアノテーションが対象文書に対して行われ、下記のようにSuccessのメッセージにより完了を確認します。

辞書情報にもとづいて、アノテーションされているかどうかみてみましょう。対象のドキュメントセットからアノテーションセットを作成し、Taskにて確認します。手順は、「Watson Knowledge Studio 〜ワークスペースの環境移行手順〜」を参照ください。

上記の手順実行後、文書を確認すると下記のように辞書情報をもとにアノテーションされていることを確認できます。

②学習モデルによるプレアノテーション

学習モデルによるプレアノテーションは、作成済みの学習モデルがあることが前提となります。ここでは、下記の学習モデルが既に作成されているとします。 ![image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/299863/c7807af4-5dca-5e15-fa47-4f46fc41fc64.png)

辞書によるプレアノテーションと同様に、新規の学習文書を追加してみましょう。