LoginSignup
10
4

More than 1 year has passed since last update.

【Unity(C#)】OculusQuestでAndroidネイティブの音声認識機能を呼び出せるのか検証

Last updated at Posted at 2021-04-04

はじめに

VRヘビーユーザーからすれば当たり前のことかもしれませんが、
OculusQuestにマイクが搭載されているのはご存じでしたでしょうか。

ボイスチャットに利用されることがほとんどで、
その他の用途で使われている事例をあまり見たことがありませんでした。
(たぶん世の中にはたくさんある)

しかし、最近目にした記事にボイスチャット以外の用途でマイクを使った事例がありました。
【参考リンク】:Synamon、ロゼッタと「リアルタイム多言語翻訳システム装備のVRオフィス」を共同開発

一言で説明すると、翻訳VRアプリです。
マイクを音声認識の受け口として利用しています。

そこで、私も勉強がてら"OculusQuestのマイクを利用したVRアプリ作りに挑戦してみたい"と思い、実際に作りました。

Androidネイティブの音声認識機能

Androidには音声認識の機能が搭載されており、開発者がアプリに組み込めるようにその機能が公開されています。
【参考リンク】:RecognitionListener

そして、そのAndroidのネイティブの機能をUnityからネイティブプラグインとして呼び出すことができます。

OculusQuestはAndroidベースであり、Androidアプリとしてビルドすることから、
"もしかしたら、Androidのネイティブプラグインを導入すれば動くんじゃないか?"という仮説に辿り着きました。

その検証を行った結果を記していきます。

##ネイティブプラグイン作成
まずは下記リンクを参考にネイティブプラグインを作成します。
【参考リンク】:Unity向けAndroidネイティブプラグインの作り方
【参考リンク】: AndroidのSpeechRecognizerをネイティブプラグイン化してUnityで使う

記事の通りでほとんど詰まることなくいけました。
なんか動かん、という場合には地味にやることが多いので原因の特定はそこそこの苦行となります。
ですので面倒かもしれませんが最初からやり直した方が早い場合もあるかもしれません。

Javaで書いたプラグイン側のコードとC#で書いたUnity側のコードだけメモ残します。

プラグイン側のコード

プラグイン側のコード
package com.kento.speechtest;

import java.util.ArrayList;
import java.util.Locale;
import android.content.Context;
import android.os.Bundle;
import android.speech.RecognitionListener;
import android.speech.RecognizerIntent;
import android.speech.SpeechRecognizer;
import android.content.Intent;
import static com.unity3d.player.UnityPlayer.UnitySendMessage;

public class Speech
{
    static public void StartRecognizer(Context context, final String callbackTarget, final String callbackMethod)
    {
        Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);
        intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, Locale.JAPAN.toString());
        intent.putExtra(RecognizerIntent.EXTRA_CALLING_PACKAGE, context.getPackageName());

        SpeechRecognizer recognizer = SpeechRecognizer.createSpeechRecognizer(context);
        recognizer.setRecognitionListener(new RecognitionListener()
        {
            @Override
            public void onReadyForSpeech(Bundle params)
            {
                // On Ready for speech.
                UnitySendMessage(callbackTarget, callbackMethod, "onReadyForSpeech");
            }

            @Override
            public void onBeginningOfSpeech()
            {
                // On begining of speech.
                UnitySendMessage(callbackTarget, callbackMethod, "onBeginningOfSpeech");
            }

            @Override
            public void onRmsChanged(float rmsdB)
            {
                // On Rms changed.
                UnitySendMessage(callbackTarget, callbackMethod, "onRmsChanged");
            }

            @Override
            public void onBufferReceived(byte[] buffer)
            {
                // On buffer received.
                UnitySendMessage(callbackTarget, callbackMethod, "onBufferReceived");
            }

            @Override
            public void onEndOfSpeech()
            {
                // On end of speech.
                UnitySendMessage(callbackTarget, callbackMethod, "onEndOfSpeech");
            }

            @Override
            public void onError(int error)
            {
                // On error.
                UnitySendMessage(callbackTarget, callbackMethod, "onError");
            }

            @Override
            public void onResults(Bundle results)
            {
                ArrayList<String> list = results.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION);
                String str = "";
                for (String s : list)
                {
                    if (str.length() > 0)
                    {
                        str += "\n";
                    }
                    str += s;
                }

                UnitySendMessage(callbackTarget, callbackMethod, "onResults\n" + str);
            }

            @Override
            public void onPartialResults(Bundle partialResults)
            {
                // On partial results.
                UnitySendMessage(callbackTarget, callbackMethod, "onPartialResults");
            }

            @Override
            public void onEvent(int eventType, Bundle params)
            {
                // On event.
                UnitySendMessage(callbackTarget, callbackMethod, "onEvent");
            }
        });

        recognizer.startListening(intent);
    }
}

Unity側のコード

Unity側のコード
using System;
using UnityEngine;
using UnityEngine.Android;
using UnityEngine.UI;

// <summary>
/// Androidのネイティブ音声認識機能呼び出し
/// </summary>
public class AndroidNativeSpeech : MonoBehaviour
{
    [SerializeField] private Text recText;
    [SerializeField] private Image microPhoneImage;

    private void Start()
    {
#if UNITY_ANDROID
        if (!Permission.HasUserAuthorizedPermission(Permission.Microphone))
        {
            Debug.Log("Request");
            Permission.RequestUserPermission(Permission.Microphone);
        }
#endif
    }

    private void Update()
    {
        if (Input.touchCount > 0)
        {
            Touch touch = Input.touches[0];
            if (touch.phase == TouchPhase.Began)
            {
                StartSpeech();
            }
        }
    }

    /// <summary>
    /// 認識開始
    /// </summary>
    private void StartSpeech()
    {
#if UNITY_ANDROID
            var nativeRecognizer = new AndroidJavaClass("com.kento.speechtest.Speech");
            var unityPlayer = new AndroidJavaClass("com.unity3d.player.UnityPlayer");
            var context = unityPlayer.GetStatic<AndroidJavaObject>("currentActivity");
            
            context.Call("runOnUiThread", new AndroidJavaRunnable(() =>
            {
                nativeRecognizer.CallStatic("StartRecognizer", context,gameObject.name, "CallbackMethod");
            }));
#endif
    }

    /// <summary>
    /// 音声認識後のコールバックとして実行するメソッド
    /// </summary>
    /// <param name="message">認識したメッセージ</param>
    private void CallbackMethod(string message)
    {
        var messages = message.Split('\n');

        //ユーザーが話すのを開始した際のコールバック
        if (messages[0] == "onBeginningOfSpeech")
        {
            microPhoneImage.enabled = true;
        }
        
        //認識した音量変化のコールバック
        if (messages[0] == "onRmsChanged")
        {
            recText.text = "認識中...";
        }
        
        //ユーザーが話すのを終了した際のコールバック
        if (messages[0] == "onEndOfSpeech")
        {
            microPhoneImage.enabled = false;
        }
        
        //認識結果の準備が完了したコールバック
        if (messages[0] == "onResults")
        {
            var msg = "";
            for (var i = 1; i < messages.Length; i++)
            {
                msg += messages[i] + "\n";
            }

            Debug.Log(msg);
            recText.text = msg;
        }
    }
}

デモ

音声が無いのでアレですが、無事動作しました。
SpeechSample2.gif

VRで検証

結果から言うと動きませんでした。
adb logcat -s Unity:*とコマンドプロンプトに入力することで
動作中のUnity製Androidアプリのログを出力できます。(教えてくださった方ありがとうございます!)
その方法で実行中のVRアプリのログを確認しましたが、特にエラーを吐くことも無くただただ動いていませんでした。

同じ検証で四苦八苦している先駆者がOculusの公式コミュティに質問を記していました。
(そして、それらしい回答もなく終了していました)
QuestQuestionSS.PNG

【引用元】:On-device Speech Recognition on the Quest with Unity

冒頭の翻訳VRは下記リンクの手法で実現しました。
【参考リンク】:【Unity(C#)】Watson API × OculusQuestで音声認識
【参考リンク】:【Unity(C#)】Microsoft Translatorの使い方


ちなみに、海外ユーザーは音声入力や音声コマンドが利用可能なようです。
音声コマンドは「ヘイ、フェイスブック!」ってやつです。
【参考リンク】:音声コマンド・音声入力

QuestVoiceSS.PNG

そのうち、日本語にも対応して開発者に公開されるのを期待します。


2021/04/08 追記
下記アセットを使えばオフラインの音声認識も可能なようです。
【Asset】:Android Speech TTS

ただし、日本語はまだ対応していません。
英語での認識についてデモAPKを落としてきて試しましたところなかなか良い精度でした。

通常のネイティブの音声認識機能ではなく、下記ライブラリを使用しているようです。
Kaldi Speech Recognition Toolkit

(教えてくださった方、感謝です!)

おわりに

今回の検証結果はOculusQuestでAndroidネイティブの音声認識機能は呼び出せないとなりました。

もし成功した方がいらっしゃったら遠慮なくツッコんでください。(あわよくば方法知りたい)

10
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
4