LoginSignup
15
13

More than 5 years have passed since last update.

IBMのWatson Speech to TextをカスタマイズしてUnityで使う

Last updated at Posted at 2017-04-25

はじめに

私がUnityで作っているVR英語学習アプリでは、英語の発音練習のために音声認識を導入することを検討していたのですが、スマホでも使えるような手ごろな方法が無くて難渋していました。
しかし最近、IBMのBluemixが提供しているWatson Speech to Textサービスが、Unity上から簡単に利用できることを知ったので、ちょっと使ってみました。特に、言語モデルをカスタマイズできる機能が面白いので、そちらについて書いてみたいと思います。

UnityからのWatson Speech to Textの使い方

公式のUnity SDKはこちらです。ユーザー登録を含む、詳しい使い方については、のしぷさんのブログ が参考になるので、ご覧ください。

SDK内のunity-sdk/Scenes/UnitTests/TestSpeechToText.unityシーンも参考になるので一度試しましょう。私は、これを改変したものを自分のアプリに使ってます。

ちなみに、Speech To Textなどのサービスは有料ですが、無料トライアルもあるので、まずはそちらで試してください。トライアル期間が終了しても、無料使用枠があるのでご安心を(クレカ登録が必要)。

言語モデルをカスタマイズする。

準備

言語モデルのカスタマイズは、IBMの公式ブログによると、2016年9月にBetaがリリースされた、比較的新しい機能のようです。同年12月には日本語認識のカスタマイズも可能になったようです(参考)。

実際のカスタマイズの方法は、こちらの英語のドキュメンテーションが一番丁寧で詳しいです。これを日本語で短くまとめた公式ブログもあります。

これらのドキュメンテーションにあるように、カスタマイズをするにはカスタム言語モデルをSpeech to Textサービスを提供しているBluemix上に作成する必要があります。いくつか方法があるようですが、自分はドキュメンテーションで説明されているcURLを使いました。cURLのクライアントはこちらからダウンロードできます。Win64システムなら、"Win64 - Generic"セクションの"Win64 x86_64 7zip"を使うと良いみたいです。ダウンロードしたら、curl.exeへのパスを環境変数PATHに登録してください(参考)。

image

うまく設定できれば、コマンドプロンプトで"curl"と入力すると、"curl: try 'curl --help' or 'curl --manual' for more information"といったメッセージが出るはずです。

Speech To Textサービスにうまく繋がるかをテストするために、サンプル音声を認識させてみましょう。こちらにある audio-file.flacをダウンロードして、コマンドプロンプトで、以下のコマンドを送ります。

curl -X POST -u 6e********9e:RJ*****qA --header "Content-Type: audio/flac" --data-binary @C:\Users*******audio-file.flac "https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?continuous=true"

ここで、6e********9eRJ*****qAは、それぞれSpeech To Textサービスのユーザーネームとパスワードです。以下の。Bluemixの設定画面から取得してください。

image

また、@C:\Users*******audio-file.flac"はファイルへのパスです。

うまくいくと

{
   "results": [
      {
         "alternatives": [
            {
               "confidence": 0.891,
               "transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
            }
         ],
         "final": true
      }
   ],
   "result_index": 0
}

こんなレスポンスが帰ってくるはずです。これが確認できれば、準備OKです。

カスタマイゼーションIDを作成して、言語モデルをWatsonに学習させる。

(以下の内容は、公式チュートリアルとほぼ同じなので、そちらを読んだ方は読み飛ばしてOKです)

カスタム言語モデルを使用する際は、customization_idを作る必要があります。Bluemix上には複数の言語モデルを作れるので、その区別にcustomization_idを使います。公式ドキュメントをもとに、以下のコマンドを使ってみます。

curl -X POST -u 6e********9e:RJ*****qA --header "Content-Type: application/json" --data "{\"name\": \"Qiita Example model\",  \"base_model_name\": \"en-US_BroadbandModel\",\"description\": \"Example custom language model for Qiita\"}" "https://stream.watsonplatform.net/speech-to-text/api/v1/customizations"

すると、{"customization_id": "93ca***********de"}のようなcustomization_idが返ってきます。

つぎに、customization_idに対して、新しいcorpora(文章例)を加えます。

curl -X POST -u 6e********9e:RJ*****qA --data-binary @D:\Documen***e\dokosco.txt "https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/93***8de/corpora/dokosco"

上記"@D:\Documen***e\dokosco.txt"の部分は、文章例のファイルへのパスです。文章例はこちらにあるcorpus.txtなどを参考にしてつくります。覚えさせたい文章例をたくさん与えると良いようです。わたしは、以下の内容を学習させました。

dokosco.txt
Start
Skip.
Go back.
I'm in London.
I'm in New York.
I'm in Kyoto.
I'm in Tokyo.
I'm in Osaka.
I'm in America.
I'm in Rome.
I'm in Italy.
I'm in Canada.
I'm in Paris.
I'm in France.
I'm in Sydney.

https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/93***8de/corpora/dokosco の93***8deの部分はcustomization_idです。dokoscoというのは、私がつけたcorpusの名前ですが、皆さんは自由につけてください。

このコマンドを送ると、"{ }"だけ返ってきます。Bluemix側で処理が行われるので、処理が終わったかどうかは 以下のコマンドで確認します。

curl -X GET -u 6e********9e:RJ*****qA "https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/93***8de/corpora/dokosco"

すると、以下のようなメッセージが返ってきます。

{
   "out_of_vocabulary_words": 0,
   "total_words": 41,
   "name": "dokosco",
   "status": "analyzed"
}

statusがanalyzedになっていればOKです。

つぎに、以下のコマンドでモデルのトレーニングを行います。

curl -X POST -u 6e********9e:RJ*****qA --data "{}" "https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/93***8de/train"

このコマンドを送ると、"{ }"だけ返ってきます。Bluemix側で学習が行われるので、学習が終わったかどうかは 以下のコマンドで確認します。

curl -X GET -u 6e********9e:RJ*****qA "https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/93***8de"

すると、以下の結果が返ってきます。

{
   "owner": "8******9",
   "base_model_name": "en-US_BroadbandModel",
   "customization_id": "9*******e",
   "created": "2017-04-24T09:01:17.602Z",
   "name": "Qiita Example model",
   "description": "Example custom language model for Qiita",
   "progress": 100,
   "language": "en-US",
   "status": "available"
}

statusがavaialbleになればOKです。

学習内容をもとに、Unityから音声を認識させる。

ここからは、Unityでの作業です。WatsonのSDKで、Speech to textを行うのはSpeechToText.csです。その中で、Bluemixに接続する際のパラメータを変更します。パラメータについては、こちらに一覧がありますが、そのなかにcustomization_idがあるので、これを使います。

SpeechToText.csの中を見ていくと、#region Sessionless - Streamingというのがあり、連続的に音声を認識する際の処理がかかれています。その中のSendStart()でWebSocketを使ってリクエストをしており、 start["word_confidence"] =...などの形でパラメータを渡してます。そこに、 start["customization_id"] = "93***8de";を加えて、customization_idを設定することにしました。

更に下には、#region Sessionless Non-Streamingというのがあり、ここにはAudioClipをRecognizeという関数で認識させています。下をみていくとreq.Parameters[..]という形でリクエストにパラメータを設定しているので、そこにreq.Parameters["customization_id"] = "93***8de";を加えて、customization_idを渡します。

それでは、以下のコードでAudioClipを認識させるテストを行います。ゲームオブジェクトにアタッチしてください。

SampleSpeechToText.cs
using IBM.Watson.DeveloperCloud.Services.SpeechToText.v1;
using UnityEngine;

public class SampleSpeechToText : MonoBehaviour
{
    private SpeechToText m_SpeechToText = new SpeechToText();
    public AudioClip AudioClip;

    void Start()
    {
        m_SpeechToText.Recognize(AudioClip, HandleOnRecognize);
    }

    private void HandleOnRecognize(SpeechRecognitionEvent result)
    {
        if (result != null && result.results.Length > 0)
        {
            foreach (var res in result.results)
            {
                foreach (var alt in res.alternatives)
                {
                    string text = alt.transcript;
                    Debug.Log(string.Format("{0} ({1}, {2:0.00})\n", text, res.final ? "Final" : "Interim", alt.confidence));
                }
            }
        }
    }
}

AudioClipにはこちらを使います。これを認識させると、customization_idを与えても、与えなくてもI'm in Londonと正しく認識しますが、与えるとConfidenceが0.99なのに対し、与えないと0.89なるので、一定の効果はあるようです。

おわりに

自分自身、Watson初心者なので、間違いがあるかも知れません。お気軽にコメントしてください。あと、カスタマイズの設定は、CURLのかわりにUnityのSDKを使ってもできるようですが、まだ試していません。今度がんばります。

15
13
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
15
13