SlackメッセージをLambda経由でPollyを使って音声出力 #lambda

AWS Pollyを使ってみた

音声読み上げる人工知能Pollyがリリースされた。普段大量の文章を読まなければならないので、移動中に読めればと考えていたが、このPollyのAPIを使って普段使いできるようにしたいと思い、作った。

仕様

Slackに文章を投稿
Slack BotからAmazon API Gatewayに文章を投げる
Amazon API Gatewayを通じて、Lambda(nodejs)経由でPollyで音声処理
Pollyから返って来たBufferの音声ファイルをS3に保存
S3のURLをSlackに投稿

下準備

1. SlackのSlash Commandsを使う

まずは、SlackのSlash CommandsをActivateさせて、Tokenを取得。なんのコマンドで呼び出せるようにするか決めておく。例： /emma

2. AWS上にS3のバケットとIAMロールの作成。

2.1. S3に音声ファイルアップロード先のバケット作成。（Pollyが一部でしか対応していないので、僕はus-east-1に作りました）
2.2. API Gateway, S3, Lambda, Polly, CloudWatchを適切な権限で作成。（ご自分の要望に応じて）

3. npmをローカルにインストールしておく

3.1. npmをインストール
brew install npm

3.2. 最新のAWS-SDKをインストールする。何故ならLambdaにデフォルトでインストールされているaws-sdkがPollyをサポートしていないから。2.7.10が最新（2016年12月2日現在）
npm install aws-sdk@2.7.10

4. 自分の好みの声を探しておく笑

AWSコンソールのPollyで音声出力させる際の声をチェックしておく。また、どの言語がサポートされているのかも同時にチェックしておいてください。

コードを書く

今回書いたコード。因みにこのコードは英国英語対応の音声なので、日本語を試したい方はMizukiさんを選びましょう。

index.js


'use strict';
/* ファイル名に現在時刻をつける用のlibrary
   npm install date-utils
*/
require('date-utils');

/* 注意：最新のAWS SDKにしないとPollyは機能しないので、AWS SDKは別途アップする。
   npm install aws-sdk@2.7.10
   2016年12月2日現在
*/
const AWS = require('aws-sdk');
const qs = require('querystring');
const kmsEncryptedToken = process.env.kmsEncryptedToken;
let token;

var polly = new AWS.Polly({apiVersion: '2016-06-10'});
var s3 = new AWS.S3({apiVersion: '2006-03-01'});



function processEvent(event, callback) {
    const params = qs.parse(event.body);
    const requestToken = params.token;
    if (requestToken !== token) {
        console.error(`Request token (${requestToken}) does not match expected`);
        return callback('Invalid request token');
    }

    // Slackから取得したパラメータ達。必要に応じて使ってください。
    const user = params.user_name;
    const command = params.command;
    const channel = params.channel_name;
    const commandText = params.text;

    // Pollyの初期設定とSlackから取得したテキスト
    const pollyParams = {
      OutputFormat: 'mp3', // 音声フォーマット
      Text: commandText, // スラックから呼び出したメッセージ
      VoiceId: 'Emma', // 読ませたい音声。これは英国英語
      TextType: 'text'
    };

    // Pollyでテキストから音声に変換
    polly.synthesizeSpeech(pollyParams, function(err, data) {
      if (err) console.log(err, err.stack); // an error occurred
      else
          console.log(data);           // successful response
          // 現在の日付時刻取得
          var dt = new Date();
          var timenow = dt.toFormat("YYYYMMDDHH24MISS");

          // s3にPutする用のパラメータ
          var s3Params = {
            ACL: 'public-read', //S3権限
            Bucket: 'YOUR-BACKET', //アップロードバケット先
            Key: `YOUR-FILE${timenow}.mp3`, //S3のファイル名
            Body: new Buffer(data.AudioStream) // AudioStreamの取得
          };

          // s3にputする
          s3.putObject(s3Params, function(err, data) {
            if (err) console.log(err, err.stack); // an error occurred
            else     console.log(data);           // successful response
            // Slackにコールバック
            callback(null, `Hi, ${user}. I read your text and recorded my voice at https://s3.amazonaws.com/${s3Params.Buket}/${s3Params.Key} The original text is "${commandText}"`);

          });
    });

}

// LambdaでSlack用のBluePrintを選ぶと付いてくる。これはそのまま使う。
exports.handler = (event, context, callback) => {
    const done = (err, res) => callback(null, {
        statusCode: err ? '400' : '200',
        body: err ? (err.message || err) : JSON.stringify(res),
        headers: {
            'Content-Type': 'application/json',
        },
    });

    if (token) {
        // Container reuse, simply process the event with the key in memory
        processEvent(event, done);
    } else if (kmsEncryptedToken && kmsEncryptedToken !== '<kmsEncryptedToken>') {
        const cipherText = { CiphertextBlob: new Buffer(kmsEncryptedToken, 'base64') };
        const kms = new AWS.KMS();
        kms.decrypt(cipherText, (err, data) => {
            if (err) {
                console.log('Decrypt error:', err);
                return done(err);
            }
            token = data.Plaintext.toString('ascii');
            processEvent(event, done);
        });
    } else {
        done('Token has not been set.');
    }
};

Zip化する

作ったファイルとライブラリをzip化
zip -r myfunc.zip index.js node_modules;

LamdaのSlackのBluePrintを使ってAmazon API GatewayとLambdaを設定する

AWSコンソールにログインした後、Pollyがサポートされているリージョン（us-east-1）のLambdaにアクセスする。（AWSコンソールで、Pollyに触る必要はなし）
LamdaにSlackのBluePrintを選択。
Slackで使ったTokenをEnvironment Variables（kmsEncryptedToken）に入れて、暗号化しておく。
Roleなど適切に設定した上で、Lambdaに先ほど作成したZipファイルをアップロードする
API Gatewayで作ったURLをSlackのIntegration SettingのURLに貼る。

これで、slackに/emma MESSAGEと書くと、トップ画像のようにメッセージが返ってくる。(選んだ音声がたまたまEmmaだったので、エマワトソンの画像を貼った笑）

つまずいた点

だいぶ初歩的なところでつまづいた感が・・・

IAMのロールを付け忘れていたので、無駄に時間がかかってしまった。
Lambda(nodejs)では、まだデフォルトでPollyのSDKがサポートされていないことにしばらく気づいていなかった。（新機能は使う際にサポートされているかどうかはチェックすべき）

これで、自分が読みたい文章をどんどん音声に変換できるので期待しているが、最大５分間しか出力できないらしい。。。