More than 5 years have passed since last update.

DiscordAdvent Calendar 2018

discord.js でボイスチャットの音声録音ボットを作ってみる

Last updated at 2019-11-06Posted at 2018-12-19

**2019/11/06現在この記事通りに音声を受信できません。推測ですが、Discord側の仕様が変わった可能性があります**

1. 概要

node用 discord botライブラリ discord.jsを使用して、ボイスチャット音声を録音する方法を紹介します(a)。
また、併せて筆者のネット環境で発生したNAT越えの問題の解決方法を紹介します(b)。
(b) は当方の環境(NAT)でうまく動いただけで、必ずしも問題解決ができるとは限りませんが、何らかの参考になれば幸いです。

※追記 2019/05/19
(b): NATがないレンタルサーバでも (b) 4.4の修正を行わないと、音声を受信できませんでした。よって、NATのある/なしは根本原因ではないようです。でも、とりあえず動きました。
NATのない、レンタルサーバで(a)のコードを実行したところ、音声収録ができませんでした。しかし、(b)の修正を行うことで、実行可能でした。
なので、(b)では、『NAT越えの問題』と書いてありますが、関係がない可能性があります。(どのような理屈なのかはわかっていません)

動作確認をしたサーバ

sakura VPS 2G
AWS CE2(Amazon Linux 2 AMI, C5d.xlarge)

2. 動作確認環境

プロバイダ: JCOM
NAT : HG100R-02JG
マシン : iMac Late 2015
OS : mac OSX 10.14.1 (Mojave)
node : v8.12.0
discord.js: 11.4.2

3. (a) discord.js でボイスを収録する

ありがたいことに Évelyne Lachance(eslachance) 様がサンプルプログラムを公開してくださっております。
https://gist.github.com/eslachance/fb70fc036183b7974d3b9191601846ba

NAT超えの問題がなければ、設定ファイル auth.jsonを追加するだけで、お手軽にボイスの録音ができます。
動作確認しやすいように、package.jsonなどを追加したレポジトリを用意しましたのでこちらを使用すること前提で説明します。
https://github.com/YoshikazuOota/discord_voice

v9-voice-reveive.js

const Discord = require("discord.js");
const fs = require('fs');

const client = new Discord.Client();

const config = require('./auth.json');

// make a new stream for each time someone starts to talk
function generateOutputFile(channel, member) {
    // use IDs instead of username cause some people have stupid emojis in their name
    const fileName = `./recordings/${channel.id}-${member.id}-${Date.now()}.pcm`;
    return fs.createWriteStream(fileName);
}

client.on('message', msg => {
    if (msg.content.startsWith(config.prefix+'join')) {
        let [command, ...channelName] = msg.content.split(" ");
        if (!msg.guild) {
            return msg.reply('no private service is available in your area at the moment. Please contact a service representative for more details.');
        }
        const voiceChannel = msg.guild.channels.find("name", channelName.join(" "));
        //console.log(voiceChannel.id);
        if (!voiceChannel || voiceChannel.type !== 'voice') {
            return msg.reply(`I couldn't find the channel ${channelName}. Can you spell?`);
        }
        voiceChannel.join()
            .then(conn => {
                msg.reply('ready!');
                // create our voice receiver
                const receiver = conn.createReceiver();

                conn.on('speaking', (user, speaking) => {
                    if (speaking) {
                        msg.channel.sendMessage(`I'm listening to ${user}`);
                        // this creates a 16-bit signed PCM, stereo 48KHz PCM stream.
                        const audioStream = receiver.createPCMStream(user);
                        // create an output stream so we can dump our data in a file
                        const outputStream = generateOutputFile(voiceChannel, user);
                        // pipe our audio data into the file stream
                        audioStream.pipe(outputStream);
                        outputStream.on("data", console.log);
                        // when the stream ends (the user stopped talking) tell the user
                        audioStream.on('end', () => {
                            msg.channel.sendMessage(`I'm no longer listening to ${user}`);
                        });
                    }
                });
            })
            .catch(console.log);
    }
    if(msg.content.startsWith(config.prefix+'leave')) {
        let [command, ...channelName] = msg.content.split(" ");
        let voiceChannel = msg.guild.channels.find("name", channelName.join(" "));
        voiceChannel.leave();
    }
});

client.login(config.token);

client.on('ready', () => {
    console.log('ready!');
});

3.1 準備

下記のgit clone または、ダウンロードをしてファイル一式を取得してください

git clone git@github.com:YoshikazuOota/discord_voice.git

3.2 依存ライブラリのインストール

package.json も用意しましたので、npm install で一括インストールできます

npm install

次に、下記コマンドで "opusscript" をアンインストールして、"node-opus"をインストールしてください。このコマンドで、discord.js が利用するオーディオエンジンが,"node-opus"になります。本記事では"node-opus"を使用することを前提としています。

npm uninstall opusscript
npm install node-opus

オーディオエンジンの補足
discord.js のオーディオエンジンは "node-opus", "opusscript" の2つが選べます。しかし、私が試した MacOS, Linux 環境では "opusscript" を使用するとクラッシュします。
”node-opus”を使うためには"opusscript"を削除して、に"node-opus"をインストールする必要があります。

3.3 botのトークンを設定

botのトークンを auth.josn に記述します。
※ bot トークンの取得方法は、下記URLなどを参照願います。
http://djs-jpn.ga/make/step1.html

auth.json

{
  "prefix" : "sister_",
  "token" : "MzgxMjYy....(ここにトークンを記載する)" 
}

3.4 実行・動作確認

下記コマンドで実行すると、登録しているサーバにボットがログインします。

node v9-voice-reveive.js

下記の一連の操作で音声を ./recordings 以下に保存します。

prefix の設定は 3.3にあるように "sister_"とします

(1) 適当なボイスチャットチャンネル"妹雑談" を作ります
(2) テキストチャットから ”sister_join 妹雑談”と入力
(3) botが ”ready!” と返事をすれば、録音可能です
(4) (3) の状態で発話するとその内容を保存します

＊bot アイコンはキヨイチ様に制作していただきました(https://twitter.com/kiyoichi261)

3.5 録音ファイルの再生方法

./recordings の 3.4(4)で録音したファイルを見てみましょう。
もし、ファイルサイズが 0であれば、音声データがNAT超えできておらず、録音ができておりません。もしかすると、後述する方法で対応可能かもしれません。

もし音声ファイルサイズが0以上であれば、おそらく正常に録音できており、audacityで再生できます。
audacityの生データ取り込みでを選択して

量子化: singed 16 bit
チャンネル : 2ch(ステレオ)
サンプリング : 48000Hz

とすることで、取り込みできます。

4. (b) NAT超え問題の解決方法

discord の api では音声データはUDPで送信され、NAT越えしてボットを動かしているPCで受信できるようにする必要があります。
NATと discord.jsのUDPポートパンチングの実装との相性が良ければ、そのようなことすら意識する必要がなく、(a)のようにプログラム実行するだけで、勝手にNAT越えします。
以下は(a)でうまく動かなかった筆者の対処方法になります。
（＊NATによってはこの方法で問題解決しません。あくまでも一例として参考ください)

下記の自分がやったこと順に説明いたします

4.1 音声データはどのうように送受信するのか？(仕様確認)
4.2 discord.js のNAT越えはどのようになっているのか？ (実装確認)
4.3 うまく動いていないのはどこなのか？(現状確認)
4.4 どう解決するか？

補足:UDPポートパンチングについて

UDPポートパンチングとはポートフォワードなどのNATの設定を変更することなく、UDPパケットをNAT越えして送受信させるためのテクニックです。
しかし、『UDPポートパンチング』は明確な仕様があるわけでなく、大抵の場合はうまくいくけど確実性はないものになります(規格化の動きはあるようですが...)。

https://ja.wikipedia.org/wiki/UDP%E3%83%9B%E3%83%BC%E3%83%AB%E3%83%91%E3%83%B3%E3%83%81%E3%83%B3%E3%82%B0
https://tech-blog.cerevo.com/adventcalendar2016/advent24/

4.1 仕様確認: 音声データはどのうように受信するのか？

まずは、何でうまく動かないのか検討がつかないため、Discord APIページのVoice connectionsを読んでそれらしい原因を探しました。
https://discordapp.com/developers/docs/topics/voice-connections

すると、上記ページの冒頭に下記のようなことが書いてありました。

音声はUDPで送受信するよ
NAT越えして受信できるよにしてね
NAT越えはUDPポートパンチングなどがあり、そのために IP Discoveryを用意してあるよ

とのことです。音声受信以外の処理は正常に動いていることから、NAT越えに問題があるとあたりをつけました。

＊ IP Discovery ってのはUDPポートパンチング実装に必要なグローバル IP やポート番号を提供する API。

4.2 実装確認: discord.jsのUDPポートパンチング実装で期待している挙動

NAT越えの処理が怪しいとあたりをつけたので、discord.jsのソースを読み、NAT越えの処理を確認しました。
すると、Discordが推奨する UDPポートパンチングでNAT越えする実装がありました。

discord.js の実装やUDPポートパンチングの手法およびNATの挙動から、正常系動きを推定しました。

4.3 現状確認: 想定外のNAT動きはなんなのか？

次に 4.2の推定通り動いているかを一つ一つチェックしていきました。
結果、音声データはNATまではUDPが届いているが、PCには送信されないと言うことがわかりました。

4.4 解決方法

どうやらNATまでは音声データは届いているので、これを無理やりdiscord.jsが開いているポートに突っ込むことができれば、音声受信できそうです。

乱暴な方法なりますが、

(1) NATにポートフォワード設定して、UDPデータをPCまで持ってくる
(2) (1)でフォワードされているUDPポートと discord.js が開いているポートを繋ぐ

の2つで解決させました。

(1) NATにポートフォワード設定をする

4.2 にあるように、NATはランダムでUPDポートを決定するようなので、ウェルノウンポート(0-1023)以外を全部あけました。
(NATが空けるUDPポートを固定できればいいのですが...)

(2) NATでフォワードされているUDPポートと discord.js が開いているポートを繋ぐ

原始的ですが、ライブラリに手を加え

discord.js が開けるポート番号を固定(33333番)
NATが開けるランダムポートは IP Discovery の応答から特定
するようにしました。
具体的には下記のようにモジュールを修正しました。

node_modules/discord.js/src/client/voice/VoiceUDPClient.js
discord.js : version 11.4.2

＊レポジトリの下記パスに修正済みのソースがあるので、マージしてください。
node_modules_modify/discord.js/src/client/voice/VoiceUDPClient.js

変数 bind_port が「discord.js が開いている音声UDPポート(33333番)」
変数 packet.port が「NATでフォワードされるUDPポート」(ランダム)

公開レポジトリで　npm install を行なっていれば node-udp-forwarder もインストールされているので、標準出力に表示されるコマンドを実行するだけで、音声データを正常に受信できるようになります。

表示コマンド例

udpforwarder --protocol udp4 --port 13698 --address 0.0.0.0 --forwarderPort 0 --forwarderAddress 0.0.0.0 --destinationPort 33333 --destinationAddress 0.0.0.0

4.5 確認

4.4 までを行うと、今まで空ファイルだった recordings/*.pcm が、数100kb程度のファイルになると思います。
3.5 の要領で再生を行うことができれば確認終了です。

6 最後に

強引ですが、上記で音声を取得できるDiscordボットを作る足がかりが作れました。あまり情報がなく、手探りでやっておりエレガントさがありませんが、参考になれば幸いです。

また、この記事を書いている途中で気がついたのですが、一般にUDPポートパンチングでは『定期的なNATへのUDP通信(パンチング)』をするのですが、discord.jsでは行われていないようです。これをすることで、問題が解決するかもしれません。

本記事は以上ですが、わかりにくいところやご質問ありましたら、ぜひコメントください。出来るだけお答えいたします。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

discord.js で ボイスチャットの音声録音ボットを作ってみる