概要
生成AI以前の2020年頃、AWS PollyとFFmpegを使って「1つの動画を10言語対応させる」システムを構築しました。
Netflixのように、視聴者が再生中に言語を切り替えられる仕組みです。
技術的なポイント
-
SSML の
amazon:max-durationで音声の長さを動画の尺に調整 -
FFmpeg の
adelayフィルタ で複数音声を正確なタイミングで配置 -
HLS の
var_stream_mapでマルチオーディオトラックを実現 -
-c:v copyで動画を再エンコードせず高速処理
対応言語
日本語、英語、ドイツ語、スペイン語、フランス語、イタリア語、オランダ語、ポルトガル語、ロシア語、中国語の10言語に対応しています。
詳細記事
実装の詳細(SSMLの生成、FFmpegコマンドの組み立て、HLS動画生成など)は、以下の記事にまとめています。
動画処理や音声合成に取り組む方の参考になれば幸いです。