機械学習を使って作る対話システム

  • 936
    いいね
  • 0
    コメント

はじめに

最近はチャットボットが何かと流行っています。このような機械と自然言語で対話するシステムというのは昔から多くの人に期待されていました。
今回はそんな期待に応えるべく?機械学習を使って対話システムを作ってみました。

作成物の概要

今回作成したのは対話を通じてレストラン検索を行うシステムです。イメージとしては以下のような対話を行います。"U"とついているのがユーザ発話、"S"がシステム発話です。

発話
U:スペイン料理店を探して。
S:スペイン料理店ですね。場所はどの辺りですか?
U:新宿周辺
S:新宿のスペイン料理店ですね。予算の上限はどのくらいですか?
U:4000円くらい
S:4000円ですね。それではこのお店はどうでしょうか?
S:(店を出す)

このような対話を通じて、レストランの検索に必要な情報をユーザから取得し、レストラン検索を行います。
今回、レストラン検索にはHotPepperグルメサーチAPIを利用させていただきました。ありがとうございます。

システムアーキテクチャ

対話システムは複数のモジュールから構成されています。今回は、各モジュールは独立に動作させず、前段階のモジュールの処理が終わった段階で駆動されるようにしています。
最終的なシステムアーキテクチャは以下の図のようになりました。

スクリーンショット 2017-04-19 9.51.31.png

今回のアーキテクチャに沿って処理の流れを説明すると以下のようになります。

  1. ユーザがテキストを入力すると、入力したテキストは言語理解部に入力されます。
  2. 言語理解部では入力されたテキストを解析して、対話行為と呼ばれる抽象的な意味表現に変換します。
  3. 言語理解部から出力された対話行為は、対話管理部に入力されます。対話管理部では入力された対話行為を基に、対話システムの内部状態を更新します。また、更新した内部状態を基にシステムの行動を決定し、対話行為を出力します。
  4. 対話管理部から出力された対話行為は言語生成部に入力されます。言語生成部では入力された対話行為を基に、システム発話を決定します。

以上が今回作成する対話システムの処理の流れです。主に言語理解部に機械学習を使っております。

それでは、処理の流れもわかったところで、各モジュールで行っている詳細な処理について見ていきましょう。

言語理解部

言語理解部ではユーザの発話から対話行為を推定します。この対話行為の推定は対話行為タイプの推定と属性抽出から構成されています。ここで、対話行為タイプは発話の種類を表しており、属性は属性名と属性値からなります。

対話行為タイプをact_type、属性名をa、属性値をvと書くことにすると、対話行為はact_type(a1=v1, a2=v2)のように表せます。

この表記を用いてユーザ発話の対話行為を推定すると以下のようになります。

発話 対話行為
U:スペイン料理店を探して。 INFORM_GENRE(genre=スペイン料理)
S:スペイン料理店ですね。場所はどの辺りですか?
U:新宿周辺 INFORM_LOC(location=新宿)
S:新宿のスペイン料理店ですね。予算の上限はどのくらいですか?
U:4000円くらい INFORM_MONEY(money=4000円)
S:4000円ですね。それではこのお店はどうでしょうか?
S:(店を出す)

ここで行っている対話行為タイプの推定と属性抽出について機械学習を用いて行います。それでは、各処理について順に説明していきます。

対話行為タイプの推定

言語理解部がユーザが入力したテキストを受け取ったら、対話行為タイプの推定を行います。
今回推定する対話行為タイプは以下の4つです。

  • ジャンル指定(INFORM_GENRE)
  • 場所指定(INFORM_LOC)
  • 上限金額指定(INFORM_MONEY)
  • その他(OTHER)

この対話行為タイプの推定は文書の分類問題と考えることができます。
したがって、データから学習済みの分類器があれば対話行為タイプの推定はできるはずです。以下のようなイメージです。

スクリーンショット 2017-04-19 9.52.44.png

今回は受け取ったテキストを形態素解析した後に、特徴抽出を行い、モデルの学習をさせました。
WatsonのNLC使えばもっと楽にできそうです。

属性抽出

言語理解部がユーザが入力したテキストを受け取ったら、属性抽出を行います。
今回抽出する属性は以下の3つです。レストランを検索する際にはこの3つの情報を使います。

  • 料理ジャンル
  • 場所
  • 予算上限

属性抽出には系列ラベリングを用います。系列ラベリングとは、入力が記号列であるときに、その各記号に対してラベルを振り、ラベル系列を出力する処理です。以下のようなイメージです。

スクリーンショット 2017-04-19 9.53.18.png

Bgenre、Igenre というラベルがこれらの文字列が属性値であることを表現しています。B は属性値の始まり、I は属性値が続いていることを意味しています。属性値でない部分には O というラベルが付与されます。このようにして属性抽出を行います。

今回は受け取ったテキストを形態素解析した後に、特徴抽出を行い、学習をさせました。以前私が書いた【チュートリアル】機械学習を使って30分で固有表現抽出器を作るを見るとできると思います。

ここまでで得られた対話行為タイプと属性を対話行為として次の対話管理部に渡します。

対話管理部

対話管理部では以下の2つのことを行います。

  • 内部状態更新
  • 行動選択

それぞれについて何をしているのか見ていきます。

内部状態更新

内部状態更新では、言語理解の結果を基に対話システムの内部状態を更新していきます。内部状態の更新は規則を用いて行います。また内部状態には様々な情報を持たせることができますが、今回は簡単のためにユーザの意図だけを持たせます。ユーザの意図とは過去に得られた属性と属性値のことです。それでは内部状態更新の例を見てみましょう。

仮に現在の内部状態が以下のようになっているとします。

スクリーンショット 2017-04-19 9.53.54.png

このとき、言語理解部から以下のような対話行為が得られたとします。

スクリーンショット 2017-04-19 9.54.18.png

また、以下のような内部状態更新の規則があったとします。

if 対話行為タイプ == ジャンル指定:
    ユーザ意図[ジャンル] = スペイン料理

この場合、内部状態は以下のように更新されます。

スクリーンショット 2017-04-19 9.54.36.png

ジャンル属性の属性値が埋まっていることがわかります。

行動選択

行動選択部では内部状態と規則をもとに次の行動を決定します。
具体的には、対話行為タイプを出力して次の言語生成に引き渡します。
この対話行為タイプをもとに、言語生成部でテキストを生成します。必要なら外部連携部を呼び出します。

たとえば、内部状態が以下のようになっていたとします。

スクリーンショット 2017-04-19 9.54.36.png

また、以下のような行動選択の規則があったとします。

if ユーザ意図[予算上限] == 未指定:
    output {対話行為タイプ: 上限金額要求}

このとき、内部状態と行動選択規則から、対話行為タイプとして以下を出力します。

スクリーンショット 2017-04-19 9.55.39.png

外部連携

外部連携部では、データベース呼び出しや外部API呼び出しを行います。
今回はレストラン検索をするために、外部APIとしてHotPepperグルメサーチAPIを使用しています。
対話を通じて、お店の場所、料理ジャンル、上限金額が得られたらAPIを使ってレストラン検索を行います。

言語生成

言語生成部では、規則と対話管理部から受け取った対話行為をもとに言語生成を行います。
たとえば、対話管理部から以下のような対話行為を受け取ったとします。

スクリーンショット 2017-04-19 9.55.39.png

また、以下のような言語生成の規則があったとします。

if 対話行為タイプ == 上限金額要求:
    output 予算の上限はどのくらいですか?

このとき、規則と受け取った対話行為タイプから「予算の上限はどのくらいですか?」という文を生成してユーザに提示します。

以上が言語生成部で行っていることです。

完成したシステム 「HotPepperGourmetDialogue」

完成したシステムは「HotPepperGourmetDialogue」と名付けました。
以下のGIF画像のように動作します。

どうでしょう?簡単なシステムですが動くと嬉しいものです。

ソースコード

以下のリポジトリからソースコードをダウンロードして動かすことができます。
スターつけていただけるとやる気がでますm(__)m

おわりに

今回は対話を通じてレストラン検索を行う簡単な対話システムを作成してみました。作成したシステムはコマンドラインで動作するテキストベースのアプリケーションでしたが、媒体としては、ChatBotやVirtual Agent、Pepperのようなロボットと組み合わせてもいいですし、技術としては画像処理、動画処理やタブレットからの入力と組み合わせてマルチモーダル化したりすることもできると思います。

今後の課題としては以下の点が挙げられます。

  • 入力エラーへの対応
  • 学習データ収集方法
  • 評価方法

入力エラーへの対応は、特に音声対話システムでは必須だと思われます。このような状況に対応するために現在はPOMDPを用いた対話管理について勉強中です。また、今回は対話管理部でルールを用いて内部状態更新と行動選択を行っていましたが、POMDPのような強化学習の枠組みを使うことでルールを明示的に書かなくても対話管理ができるようになると考えています。
また、十分な量の学習データの収集や評価も難しいです。論文を読むとユーザシミュレータを作成して行うことが多いようなので取り組んでいきたいです。

今回の解説が何かのお役に立てれば幸いです。

参考資料