More than 3 years have passed since last update.

kubernetes上のNode-REDで音声対話サービスを実現してみる

Last updated at 2021-11-30Posted at 2021-11-26

はじめに

我が家のホームアシスタント(勝手にそう呼んでいる)は、時報や天気をお知らせしてくれるし、雨雲が接近したら発話で注意を促したり、デバイスの操作時にも可愛い声でお喋りしてくれます。
そんなホームアシスタントにリップシンクで喋ってくれる3Dアバターを受肉させたのですが、なんだか可愛く思えてきて目や耳を持たせたくなりました。(以下はアバター開発風景)

耳は、Raspberry Piでは昔から音声認識として『Julius』というソフトが使われているようなので、コンテナ化してNode-REDから使おうと考えました。認識率を高めるための辞書のカスタマイズなどもする予定ですが、とりあえず基本部分の構築ができたので備忘録も兼ねて記事にします。

前提環境

Raspberry Pi 4 Model B * 7台 (kubernetes v1.22.0)
RaspiOS (buster) 64bit (kernel 5.10.52-v8+)
Node-RED v2.1.1 (自作コンテナ)
バッファロー USB Webカメラ BSWHD06MWH

構築

USBマイクの接続

juliusをデプロイするノードのUSBポートにマイク(Webカメラのマイクでも可)を接続します。マイクはモノラル16bitで16kHzが望ましいようです。
https://julius.osdn.jp/juliusbook/ja/desc_adin.html

ノードのOSでdmesgなどでマイクが認識できている事を確認します。

# dmesg | grep usb
              :
[    3.867192] usb 1-1.4: Product: BUFFALO BSWHD06M USB Camera
[    3.874356] usb 1-1.4: Manufacturer: KYE Systems Corp.
               :  as /devices/platform/scb/fd500000.pcie/pci0000:00/0000:00:00.0/0000:01:00.0/usb1/1-1/1-1.4/1-1.4:1.0/input/input0
[    7.710343] usbcore: registered new interface driver uvcvideo
[    7.801623] usbcore: registered new interface driver snd-usb-audio

alsamixerで録音のレベル調整をしておきます。
[F6]のサウンドカード選択でデバイスの認識順が表示されるので、ここでしっかり認識順の数字を確認しておきます。
私の環境の場合、[F6]で「1 BUFFALO BSWHD06M USB Camera」を選択して、[F4]で調整する画面になりました。

juliusコンテナイメージの作成

以下のDockerfileを作成し、マルチステージビルドでコンテナイメージを作成しました。
音声認識精度を上げるために、configureで「--enable-setup=standard」を付与しています。体感で気持ち程度の認識精度向上があります。

Dockerfile

FROM ubuntu:20.04 AS build
ENV DEBIAN_FRONTEND=noninteractive
RUN apt update && \
    apt install --yes curl gcc libasound2-dev make unzip && \
    apt clean && \
    curl -fsSL https://github.com/julius-speech/julius/archive/refs/tags/v4.6.tar.gz | tar -xz && \
    mv /julius-4.6 /julius
WORKDIR /julius
RUN ./configure --build=aarch64 --prefix=/usr/local/lib/julius --with-mictype=alsa --enable-setup=standard && \
    make && \
    make install && \
    curl -fsSL "https://osdn.net/frs/redir.php?m=nchc&f=julius%2F71011%2Fdictation-kit-4.5.zip" -o dictation-kit.zip && \
    unzip dictation-kit.zip && \
    mv dictation-kit-* /usr/local/lib/julius/dictation-kit

FROM ubuntu:20.04
ENV DEBIAN_FRONTEND=noninteractive
RUN apt update && \
    apt install --yes libasound2 libopenmpi-dev && \
    apt clean
COPY --from=build /usr/local/lib/julius /usr/local
CMD ["julius","-C","/usr/local/dictation-kit/main.jconf","-C","/usr/local/dictation-kit/am-gmm.jconf","-nostrip","-input","mic","-module"]

Dockerfileを作成したディレクトリでビルドします。
個人的にdockerではなくpodmanを使用して、自宅内にレジストリサーバもあるので、コマンドとオプションは読み替えてください。

# podman build -t localhost:30500/julius:v4.6-std .

自宅にレジストリサーバがあるのでpushします。

# podman push --tls-verify=false localhost:30500/julius:v4.6-std

自宅にレジストリサーバがなければ、外部のレジストリサーバに登録するか、デプロイ予定のノードにイメージをコピーしてください。
デプロイ予定のノード上でコンテナイメージのビルドをするのもアリですが、高負荷で稼働中のPodのヘルスチェックなどが失敗してリカバリが大変になります。

kubernetesでjuliusのpodをデプロイする

以下のようなPodのマニフェストファイルを作成し、デプロイします。
環境変数「ALSADEV」の「plughw:1,0」の数字がマイク接続時の認識順となるので、環境に合うよう書き換えてください。

julius-pod.yaml

apiVersion: v1
kind: Pod
metadata:
  name: julius
  labels:
    app: julius
spec:
  containers:
  - name: julius
    image: localhost:30500/julius:v4.6-std
    resources:
      limits:
        cpu: 1
        memory: 500Mi
    securityContext:
      privileged: true
#    command: ['sh','-c']
#    args:
#    - |
#      julius -C /usr/local/dictation-kit/main.jconf -C /usr/local/dictation-kit/am-dnn.jconf -dnnconf /usr/local/dictation-kit/julius.dnnconf -nostrip -input mic -module
    env:
    - name: ALSADEV
      value: "plughw:1,0"
    ports:
    - name: julius
      containerPort: 10500
  nodeName: maya
  hostNetwork: true

認識精度を更に求めるのであれば、コメントしている部分を外してDNN(Julius単体)版で起動してください。DNN(Julius単体)版ではCPU数とRAMの割り当ては少なくとも倍(CPU: 2,memory: 1Gi)に増やしてください。
認識までの時間は遅くなります。(体感で5秒〜)

個人的に、1台しかないノードをhostNetworkで扱うような特殊なPodは、コントローラ経由でPodを作成しない方が良いかと思います。他のノードで動かせないので、ノードのリソース枯渇時に無限増殖するような動作をした記憶があります。
デバイス、リソースに問題なければデプロイします。

# kubectl apply -f julius-pod.yaml 
pod/julius created
# watch kubectl get pods
Every 2.0s: kubectl get pods                                                                                                                         chino: Fri Nov 26 18:29:30 2021

NAME                                         READY   STATUS    RESTARTS        AGE
julius                                       1/1     Running   0               5m

無事「Running」になって、RESTARTSが増えていなければOKです。
うまく動作しない原因の大体がマイクの認識部分ですので、マイクを変えてdmesgを確認して対処してください。