だから音声は面白い！日立製作所が進める、「人の感情」を可視化する新規サービスの作り方

2022年7月22日

現代社会におけるビジネス環境には、オンラインからオフラインまで、顧客とのタッチポイントが数多く存在します。SNSや口コミサイトのようなUGCコンテンツ（User Generated Contents＝ユーザー生成コンテンツ）はもちろん、従来型の店舗や販売スタッフ、カスタマーサポートに至るまで多様な接点があり、デジタル技術を活用することによって、ユーザーからの製品・サービスへのフィードバックが非常に届きやすい環境になってきたと言えるでしょう。

企業としては、このような情報を活用してマーケットイン型の製品・サービス開発につなげたいところですが、膨大な情報の中から「有益なポイント」を抽出するのは、なかなか難しいものです。

今回は、そんな企業活動を支援するために日立製作所が提供する「感性分析サービス」について取材しました。企業や製品・サービスなどに対する顧客の「声」「感情」「価値観」を高精度に可視化する同サービスは、どのような技術から生まれ、どのような構想を持って展開されているのか。本記事では、日立製作所の中でも音声分析技術領域で活躍する研究者・SEメンバーにお話を伺いました。

日立製作所経験者採用実施中！

音声認識、音響認識、または時系列信号処理に関する研究開発
募集職種詳細はこちら

テキスト→画像→音声と、分析できることが増えていった「感性分析サービス」
日立内でのニーズも高まっている感情認識技術
感情を定量的に把握するために採用した2つの技術
目的が達成されるためには「何を可視化したらいいのか？」をちゃんと考えるべき
向上心さえあればどうにでもなる！

プロフィール

住吉貴志（すみよしたかし）

株式会社日立製作所
研究開発グループデジタルサービス研究統括本部　先端AIイノベーションセンタメディア知能処理研究部主任研究員

2003年4月、日立製作所に入社。大学院では音声認識に関する研究に従事した後、日立では2年半ほど、ルーターやスイッチ等のネットワーク周辺機器に搭載するソフトウェアやその運用管理に関する研究を担当。その後、音声研究へと担当を移し、「人間共生」をコンセプトとするロボット「EMIEW」の音声コミュニケーション機能など、様々な製品における音声関連機能の研究開発に従事する。現在は感性分析サービスの製品化を中心に担当している。

藤岡拓也（ふじおかたくや）

株式会社日立製作所
研究開発グループ基礎研究センタ　研究員

2016年4月、日立製作所に入社。大学では音声信号処理と聴覚心理学を研究し、入社後はメディア知能処理研究部に配属。3年ほど音声合成の研究に従事した後に、音声感情認識の研究を担当して、現在の感性分析サービスのコア部分である機械学習モデルの研究開発を進める。その後、2021年より現在の部署である基礎研究センタへと異動し、人間の内面状態の推定とそれを活用した介入に関する研究に従事している。

宋成登（ソウ・ソンドゥン）

株式会社日立製作所
サービス＆プラットホームビジネスユニット　アプリケーションサービス事業部　Ｌｕｍａｄａソリューション推進本部　サービス事業推進部

2014年4月、日立製作所に入社。大学では宇宙物理学を研究し、入社後はアプリケーションサービス事業に配属。2021年3月までSEとして金融業界向けのシステム開発に従事する。その後、DXソリューションを多数展開している現在の部署へと異動し、開発のみならず、提案から保守・運用の支援までを一気通貫で担当。現在は感性分析サービスを中心に、新しい機能や中長期的な販売戦略などに従事している。

テキスト→画像→音声と、分析できることが増えていった「感性分析サービス」

――まずは皆さまが製品開発に携わっている「感性分析サービス」のソリューション概要について教えてください。

宋 : SNSや各種アンケート結果、コールセンターの対応記録などから、話題や感情、意図などを分析し、未来のアクションに向けて活用するというサービスです。機能としては「感情分析」、「モラル分析」、「意外性分析」の大きく分けて3つで構成されており、例えばSNSにある大量の投稿群の中から、多数派・少数派双方からの反応の傾向や反響を高精度に可視化することができます。

――3つそれぞれの機能では、具体的にどんなことができるのですか？

宋 : 感情分析では、大量のテキストデータを約1,300種類の話題や感情などに分類できるAIを適用し、好意的か中立か悪意的かの3分類と、それらをさらに細分化した81種類の感情から、最適なものを導きます。モラル分析は、「道徳基盤辞書」というツールを活用して、テキストデータを擁護・公正・内集団・権威・純潔のいずれかに分類するものです。そして意外性分析は、今お伝えした2つの機能では件数が少なくて表示されなかった、少数派の反響などを抽出して可視化します。サービスとしては2018年10月にリリースをしており、モラル分析と意外性分析の2機能は2021年秋に実装したものとなります。

――基本的にはテキストマイニング、ということですね？

宋 : 最初はテキスト分析から始まったのですが、ここ最近で画像と音声についても機能追加を進めていました。
画像については、画像や映像にある顔画像の感性をリアルタイムで識別・可視化するものとなっています。また音声については、録音された音声データから、声のトーンなどによって感情を抽出・可視化するものとなります。言葉（テキスト）→表情（画像）→音声という順番で機能を実装していきました。

――皆さまが担当されているのは、音声分析に関する部分だと思うのですが、どのような経緯から音声分析機能が実装されることになったのでしょうか？

宋 : 具体的なニーズとして現れたのは、コールセンターのお客さまからでした。それまで音声に対してテキスト化したものから感性分析を行っていたのですが、「文字だけではない声のトーンなどからも分かることがありそうだよね」というニーズがあり、これまで日立が進めてきた音声分析研究の成果を搭載することになりました。

日立内でのニーズも高まっている感情認識技術

――日立の音声研究といえば、かなりの歴史があると伺ったのですが。

住吉 : 日立ではかなり昔から音声認識や音声合成の研究に取り組んでおり、事業への貢献も続けてきました。近年ではディープラーニング技術の発展もあって、それぞれの質が格段に上がってきています。
我々としても、この研究を様々な日立の製品やサービスに活かしていきたいという思いがある中で、今回の事業を別プロジェクト経由で紹介してもらい、機能実装を進めるに至りました。

――近年、感情認識技術へのニーズが高まっているように感じますが、サービスへの実装については、そのような背景もあるのでしょうか。

住吉 : そうですね。例えば、今後の超高齢社会を考えたときに、ケアを担う人財不足が懸念されており、ロボットが担う役割への期待が高まっています。その中で、機械がアシストする際に、コミュニケーションが重要になると言われています。

ロボットが淡々と喋るだけではなく、感情を含んだ音声にする。それだけでも、ケアされる側にも感情の動きが発生して、結果としてより積極的なコミュニケーションが生まれることが期待されます。このような背景があって、ここ数年で感情認識技術へのニーズが日立内でも高まっていった印象ですね。

藤岡 : 僕たちふたりとも、「EMIEW」という「人間共生」をコンセプトとするロボットの研究開発に携わっていました。実はEMIEWも淡々と喋るのですが、「面白くないよね」というフィードバックが社内からもありました。そこから喋り方のバリエーションを増やすため、音声合成技術が応用されていったという背景があります。
また別の文脈ですが、2020年以降はCOVID-19の影響もあってリモート会議が多く行われるようになったので、そういうデータを使って営業や教育にも活かしたいという話もありました。ちょうどモニタリングのようなソリューションへの需要も高まっている中で、宋さんが担当する感性分析サービスと引き合いがあり、技術を載せていったという流れになります。

――そうやって研究所のシーズと事業部のニーズがマッチングしていくんですね！おふたりはどんな形で役割分担されているのでしょうか？

住吉 : 最初は藤岡さんが、サービスのコア部分である機械学習モデルの研究開発を進めていきました。その後、私が主担当を引き継ぎ、製品化に向けた精度の検証やそのためのプロトタイプ開発などを担当しました。

藤岡 : 僕自身は現在、基礎研究センタというところに異動して、人の内面状態を推定して、その情報をもって人にどうやって介入するべきかという研究をしています。

感情を定量的に把握するために採用した2つの技術

――感性分析サービスに搭載されている音声感情分析技術について教えてください。

藤岡 : 音声データを入力して、音声データに含まれる感情に関する情報を出力する機械学習モデルになります。
感情というものは、同じインプットでも、往々にして人によって感じ方が異なります。ある人が聞いたら怒っているように聞こえても、ある人にとっては悲しんでいるように聞こえるかもしれません。そうなると、アノテーションがずれて学習の邪魔になり、モデル全体の性能が落ちてしまいます。

――感情を扱うとなると、特にノイズが多そうですね。

藤岡 : そこで僕たちが採用したのが、「サンプルの寄与度に応じた重み付けの推定モデル」と「動的なラベル補正」です。
前者については、各サンプルの学習過程への寄与度を推定したうえで重み付けをするというものです。つまり、曖昧でノイズの多い音声データは学習にあまり寄与しないので無視し、一方で明確な音声データははっきりと寄与しているので高い重みを与えるということです。
また後者については、感情のラベルを学習に応じて動的に補正します。例えば、一度「喜び」とラベルをつけたサンプルに対して、学習が進むにつれて補正が必要となったら「悲しみ」へと動的に変えるということです。

1回目のエポックではニューラルネットワークのパラメータを更新し、2回目のエポックではニューラルネットワークのパラメータを固定したままラベル補正とサンプル重要度のパラメータを更新する。今回採用された技術では、この交互最適化によってモデルを学習させるというものとなっている。IEMOCAP（interactive emotional dyadic motion capture database）データセットで学習・評価したところ、重み付き精度（WA）は65.9%、重みなし精度（UA）は61.4%が得られ、本技術を用いない条件と比較してそれぞれ2.3%と1.9%の絶対的な改善をもたらしていることがわかる。（画像出典：”Meta-Learning for Speech Emotion Recognition Considering Ambiguity of Emotion Labels” Table 2: Results, percentage, over each method. P: precision, R: recall, F1: F1-score, WA: weighted accuracy, UA: unweighted accuracy. *: reported values in the original papers）

――こちらを進めるにあたって、大変だった点は何でしょうか？

藤岡 : 機械学習全般に言えることですが、パラメータの調整によって結果が大きく変わるので、チューニングしなければいけないという点があります。その上で、今お伝えした特徴2つについて、それぞれの手法がどのように結果に影響したのかを検証しないと有効かどうかが言えないので、それらを地道に実験等で調べていくのが大変でした。やり方の方針が固まったら、あとは泥臭くやっていました。

――藤岡さんが構築されたモデルをコアにして製品化を進めていかれたと思いますが、その中で苦労されたポイントを教えてください。

住吉 : コアの部分は藤岡さんがしっかりと作られたので、私の方では、限られた期間でどれだけ効率よく、スピーディーに製品化するかがポイントでした。この時期は、チーム内の他のプロジェクトのサポートも行っていたため、いかに他のメンバーや事業部を巻き込みながら計画通りに進めるかに注力しました。

――PMとしての難しさですね。役割は違いますが、同じ音声を使った領域で研究開発をされているおふたりにとって、仕事のやりがいや面白さは何になりますか？

藤岡 : 音声による言葉を使ってやりとりをするのが、人間ならではのコミュニケーション方法だと感じます。だからこそ、そこをじっくりと研究するのは面白いですね。

住吉 : 私の場合、人の声というものをコンピューターで扱えることを知ったのは大学の時でした。
「何でテキストにできるんだろうな？」と不思議に思った原体験が、今の仕事の楽しさにもつながっていると思っています。
まだまだできないことは多く、例えば実際の環境に入ると業務固有の言葉など認識が難しい音声がたくさんあります。そんなところにチャレンジできるのも、また楽しい部分かなと思っています。

目的が達成されるためには「何を可視化したらいいのか？」をちゃんと考えるべき

――音声感情分析技術や感性分析サービスを通じて、どんな未来を目ざしているのか、皆さまのお考えを教えてください。

宋 : 私がいる部署のミッションはアプリ開発なので、目まぐるしく変わる社会の中で、人々の暮らしや仕事の仕方をもっと便利にしていきたいという思いがあります。そのソリューションの1つに感性分析サービスがあると思っているので、サービスのブラッシュアップに向けて引き続き改善に携わっていきたいです。
現在はまだ従来のテキストマイニング機能をメインでお使いいただいている状況ですが、少しずつ音声分析機能の認知も広がっているので、お客さまからのフィードバックも参考にしながらソリューション開発を進めていきたいと思います。

住吉 : 私としても、技術を通して人々の生活を楽にしたいという思いがあります。音声認識は、例えば議事録作成の作業時間を削減するなど、ワークライフバランスの向上にもつながる技術だと考えています。より良い生活を実現するための手助けを、引き続きやっていきたいですね。感性分析サービスはそのための1つの切り口。例えばマイクやカメラ、BIツールも組み合わせて提供できたら、よりお客さまの近くにある課題を解決できるだろうと思います。本当にやりたいことは、人の近くで起こっている事象を分析して問題解決することなので、それに向けて動いていきたいと考えています。

藤岡 : 僕自身は人と人のコミュニケーションに興味があって、今いる基礎研究センタではまさに、その領域を研究しています。コミュニケーションにも目的が様々あって、例えば営業であればモノやサービスを売ることが目的でしょうし、今回のようなインタビューであれば良い記事を作ることが目的だと思います。
いずれにせよ、目的が達成されるためには何を可視化したらいいのかを考えるべきで、そのための1つのアプローチが感情認識だと捉えています。個人的には、このコミュニケーション領域をもっとなめらかにしていきたいと考えています。

――それぞれが描かれている未来の実現に向けて、日立というフィールドの可能性はいかがでしょうか？

住吉 : 研究開発を進める中で、同じ空間にいることで他の人から刺激を受ける環境が整っていますね。ここは、事業化をする時には特に大事なポイントだと思います。また、今後は特に海外展開の比重が大きくなると思うので、よりグローバルに活躍できることが求められていることも大きいなと思います。

藤岡 : そうですね。会社としての組織が大きく、主体的に人間関係を作ろうと思えばいくらでも作れてしまう。それを通じて仕事をデザインできる点も魅力のひとつです。今回の感性分析サービスについては、最初に宋さんの部署とつながりができたことで実現できました。現在、在籍している基礎研究センタについても、異動する前からメンバーとのつながりがあり、研究の議論をさせてもらっていました。様々な部署の人と協働すると、それだけ視点が多様になるので、研究や事業化の際の気づきが多く、刺激になりますね。

宋 : 今おふたりがお話しされたことと重なりますが、同じ会社でも様々なことに挑戦できる点がメリットだと感じます。実際に私の場合、去年まで全く違う金融系を担当していました。希望を出していたこともあり、DXソリューション開発もしている今の部署に異動することができました。手を挙げて、やりたいことを伝えれば、それを受け入れてくれる土壌があると思います。

向上心さえあればどうにでもなる！

――今度はキャリアという観点で、目ざしていることやチャレンジしたいことを教えてください。

住吉 : 先ほどもお伝えしたとおり、日立では全体的に海外への動きが活発化しています。そういうところで、プロジェクトのリーディングや開発技術の深化など、自分の強みを持つための努力を続けていきたいです。

藤岡 : コミュニケーション領域で世の中に広く使われる技術を作りたいと思っていますが、そのためにはただ机の上で考えているだけではダメで、日立内外の方々と主体的に関わりながら、多様な視点を持ち続けたいと思います。

宋 : 今回の感情分析サービスという枠に囚われず、海外案件も含めて、新しいサービスの開発に積極的に携わっていきたいと思います。

――今後、どのような人と一緒に働きたいですか？

宋 : チャレンジ精神が旺盛な人、何事も好奇心を持って取り組める人ですね。私の部署は研究所と関わる機会が多いので、常に新しい技術に関する知識が必要です。でも、それ以上に好奇心は必須要素かなと思います。もちろん、今時点で知識やスキルがなくても、向上心さえあればどうにでもなると思っています。

藤岡 : 自分の頭で物事を考えて、それに沿って主体的に動ける人が望ましいです！それに尽きます。

住吉 : こだわりがあると言いますか、研究所なので、自分の技術や考え方に一家言ある人だと良いなと思います。そういう人と議論しながら、より良い仕事をしていきたいですね。

編集後記

音声研究は、日立製作所の中でも最も古い研究テーマの1つとのこと。長年蓄積された叡智が詰まった研究領域だからこそ、多角的な視点で日立内の様々な事業に組み込まれるんだと、今回のお話を伺って改めて感じました。インタビューでもあった通り、日立では「やりたい！」と手を挙げれば、しっかりとチャンスが巡ってくる環境です。事業化を見越した研究および開発に没頭したい方は、ぜひ日立にチャレンジしてみてはいかがでしょうか？

取材／文：長岡武司
撮影：平舘平

「Qiita×HITACHI」AI/データ×社会課題解決コラボレーションサイト公開中！

「Qiita×HITACHI」AI/データ×社会課題解決コラボレーションサイト公開中！
日立製作所の最新技術情報や取り組み事例などを紹介しています
コラボレーションサイトへ

日立製作所経験者採用実施中！

音声認識、音響認識、または時系列信号処理に関する研究開発
募集職種詳細はこちら

日立製作所の人とキャリアに関するコンテンツを発信中！

デジタルで社会の課題を解決する日立製作所の人とキャリアを知ることができます
Hitachi’s Digital Careersはこちら

だから音声は面白い！日立製作所が進める、「人の感情」を可視化する新規サービスの作り方

プロフィール

テキスト→画像→音声と、分析できることが増えていった「感性分析サービス」

日立内でのニーズも高まっている感情認識技術

感情を定量的に把握するために採用した2つの技術

目的が達成されるためには「何を可視化したらいいのか？」をちゃんと考えるべき

向上心さえあればどうにでもなる！

編集後記

とにかく「探究」せよ。組込み開発を支える DTSインサイトのエンジニアが貫くプロ魂とは

NVIDIAの「DLI」は初心者でも活用できる、生成AIやLLMを学ぶための最適ハンズオントレーニング

サービスを提供する際、アプリ側はどう守る？不正な解析・改ざん行為からアプリを守る、DNPハイパーテックによるアプリ保護Q&A

長時間のコーディング作業で目が疲れる… そんな悩みを軽減！31.5インチのベンキューモニターをレビュー！

オープンな手数料と充実の福利厚生など！「ITフリーランスの社会的地位の向上」を目指すPE-BANKの取り組み