LoginSignup
23
7

More than 5 years have passed since last update.

SIerが提供するスマートスピーカーAISonar

Last updated at Posted at 2017-12-05

TISAdventCalendar6日目

TISというSIerが業務用に提供する新しい価値であるスマートスピーカーのお話です!!
その中でもスマートスピーカーという製品を支えるための技術群や他の製品との違いについて書きます。

AISonarとは

公式の発表では以下のように記載されています。

「AISonar」は、エーアイとTISで共同開発した音声認識技術・意図解釈技術>(AI)・機械翻訳技術・音声合成技術を組み合わせた、スピーカー型のコミュニケーションツールです。

https://www.tis.co.jp/news/2017/tis_news/20170925_1.html

なかなかピンとこないですね…というわけでもう少し詳細についてまとめてみます。

AISonarを支える技術

AISonarの基盤を支える重要な技術が3つあります。

  1. 音声認識
  2. 対話制御
  3. 音声合成

このいずれが欠けてもスマートスピーカーとしては動作できません。
これらの要素について一つ一つみていってみます。

音声認識

音声認識はフェアリーデバイセズ社のmimiを利用しています。
また音声認識とセットで同社のfairy I/O Tumblerをハードウェアとして利用することで他のコンシューマ向けスマートスピーカーで提供されるような機能だけではなく、他のスマートスピーカーでは活用できないような情報を利用可能になっています。

例えば、以下のような情報が利用可能です。

機能 詳細
話者の識別 識別事前学習済のデータから話者を識別する
3D音声定位 スマートスピーカーに対してどの向きから声をかけたか識別する
適応ビームフォーミング 特定の方向からの音声だけを認識する
多言語対応 音声認識で多言語の認識が可能
複数話者の同時認識 複数の方向からの音源を別々に認識することが可能

対話制御

スマートスピーカーで業務を実現するためには業務自体を対話シナリオとして用意する必要があります。
一問一答のような対話シナリオだけでなくユーザの回答によって条件が分岐していくような複雑な対話シナリオを定義することで実際の業務を実現することが可能になるためです。

AISonarではこの機能をTISのチャットボットプラットフォームDialogPlayで実現しています。
DialogPlayは対話シナリオを定義の自由度が高く、またWebブラウザ上からわかりやすく定義できる
という点で強みがあります。:thumbsup:

音声合成

最後にユーザへのフィードバックとして、株式会社エーアイの音声合成を利用しています。
実績のある音声合成ソリューションで、音声合成の色々なパラメータ(ピッチ、感情、声の大小、etc...)について自在に調整可能です。

多国語での音声合成が可能で、さらに事前に音声合成用の日本語合成辞書を作って置くことで自由なキャラや人間の声でスマートスピーカーがお話ししてくれます。:relaxed:

コンシューマ向けスピーカーとの違い(差別化ポイント)

カスタム自由

AISonarは自由にカスタムすることができます。

  • ハードウェア
    • ディスプレイとの接続
    • センサー(温度、気圧、カメラなど)の接続と連携
  • ソフトウェア
    • 社内システムとの連携
    • Storeによるチェックなどの制限のない独自アプリケーションの導入
  • ネットワーク
    • 社内のイントラ/システムとの接続
    • クラウドを利用しない形態へのカスタム
    • 有線LANでの接続

等が考えられるでしょうか?
企業利用で考えられるあらゆる制約を逃れられるでしょう :smile:

基本的な動作

シーケンス図で書くと基本的な機能だとこんな感じです。
シーケンス図

この基本的な流れにたとえば発話内容の翻訳などの別の機能が入ると少し変わるという形になります。

ターゲットの違い

AISonarはB2Bをターゲットにした業務用スマートスピーカーです。
いくつかの観点で他の製品では実現不能なことが実現可能です。

利用環境の違い

コンシューマ向けスマートスピーカーは家庭内が主な利用シーンになりますが、AISonarは窓口、工場、倉庫などのような多彩な利用シーンを想定しています。
例えば、少々騒々しいような環境などでも安定して動作させることができるよう開発が進んでいます。

独自辞書の組み込み

一般的な言葉ではないような独自の言葉を音声認識してほしいというケースがあるでしょう。
例えば、業務や会社独自の規則名や製品名、略語等は音声をテキスト化する際に期待通りに結果が得られないという問題につながります。
AISonarでは認識時にシステムごとに固有の辞書を組み込むような対応も可能となっていきます。

音声データの取り扱いの違い

コンシューマ製品の音声データはどうしても製品の改善のために音声データを利用されてしまいます。
利用されるとはいっても、恐らく音声認識の学習用途に利用する、以上のことはしないでしょうが、情報漏えいを警戒したり、情報の統制を重要視したりするような環境下ではコンシューマ製品は選択肢に挙げられないでしょう。
AISonarであれば、必要であればイントラ内で完結させる音声認識システムの構築や、あるいは契約という所で守ることも実現ができるでしょう。

マーケットの審査を受けない

コンシューマ向け製品ではアプリケーションを配布のために審査が存在します。(スマートフォンにおけるGooglePlayやAppStoreの審査をイメージするとわかりやすいと思います。)
しかし、AISonarにはそういったものは存在しておらず、限られた人が限られた目的でスマートスピーカーを活用したシステムを構築する事ができるようになります。

おわりに

TISの提供するスマートスピーカーの話を軸に、スマートスピーカー全般を支える技術とコンシューマのスマートスピーカーとの違いをまとめました。

システムをコンシューマ製品で実現する場合、なんらかの制約で実現が困難な場合などの検討にご活用ください。

公式の情報はこちら

23
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
23
7