ジャーニーマン( @beajourneyman )です。
今回は「セゾン情報システムズ Advent Calendar 2023」のシーズン2の21日目の記事になります。シーズン2が立ち上がったのに枠が埋まっていなかったので、プロジェクト管理要素+AWSなテーマで追加エントリーしました。
テーマは「Amazon Polly音声生成でプロジェクト管理面で工夫したコト」
今年2023年2月のアップデートはPolly会話では衝撃のアップデートがありました。Mizukiの自然言語音声(NTTS)のリリースは発表されず、KazuhaとTomokoがリリースされました。SNSでもMizukiの今後に関する話題をいくつか目にしました。
すぐにコンソールで聞いてみて、感動したのを良く覚えています。ちなみに試したのは「あなたのコトが好きです」とかではないです。実運用している長めのプロンプトです。なお、音声生成の実装面については、別のエントリーにまとめているので、良かったらごらんください。都度アップデートするスタイルの備忘録です。
では、「プロジェクト管理面で工夫したコト」本題です。
背景ととしての Amazon Polly 音声生成の難しさ
自然言語音声の音声は非常に流暢ではありますが、ビジネスレベルで利用する場合、単純に日本語テキストから生成するだけでは、イントネーションやニュアンス面でクライアント様に納得いただけるレベルの音声生成が難しいのが現状です(自案件実績)。案件対応して実際にAmazon Polly音声を納品された経験がある方はイメージがつくのではないでしょうか?
実情は、上記リンクのQiita版備忘に詳細も書きましたが、SSML(音声合成マークアップ言語)をゴリゴリ書いて非常に細かなチューニングをします。特にお客様の社名やコールセンター名、数字の読み上げ、言葉と言葉の「間」は、毎回何回かのリテイクのご要望をいただくケースが多いです。
際限なく修正要望をお聞きする訳にもいかないので、実際に納品版が確定するまでに想定されるリテークの対象数や回数を意識した見積が必要になります。
見積標準を設計して開発
前述のような想定されるケースを踏まえて、いくつかの前提を置いて、見積標準の設計をしました。実際の値は公表しませんが、どんなパラメーターで構成したかをご説明します。
1.音声生成難易度:大・中・小
2.1音声あたりの作成回数上限
3.クライアント様生成確認後にリテークになる割合
です。パラメーターを入れれると自動算出されるワークトートとして実装し、音声生成数と難易度、リテーク想定を入れると自動算出される仕様です。セールス、プリセールス、プロジェクトマネージャなど案件見積をされる方なら、日々呼吸をするようになさっているかと思います。
その他の係数なども簡単に更新できるので、とても重宝しています。また、見積前提条件として、上記想定を記載し、当初想定との大きな乖離があった場合に、ご相談できるよりどころとしても定めました。
マスタースケジュールを決め進捗可視化ツールを設計して開発
マスタースケジュールは、シンプルに設計工程終了・開発工程開始前までに音声確定する、としました。コールフローの実装など後工程での手戻りを避ける、双方でわかりやすいマイルストーンにするなど良い区切りになっています。また、案件開始直後から、実際に本番稼働する「動くモノ」をご確認いただけるので、好評です。
進捗可視化ツールは、音声一覧をベースに見積前提となっている指標で算出したリテークを含む生成上限に対して現時点で何%に達しているのか、どの音声がOKでどの音声がNGかなどがひと目でわかるワークシートとして設計しました。
クライアント様と完全に同一の情報を用いるコトで、双方が認識合わせしやすく、とても助かりました。完全に見える化されているため、予算想定内であとどれだけ生成(リテーク)できるかも分かり、優先順位もつけやすかったのではと考えています。
実案件を通して
進捗可視化ツールに直接改善要望を記載いただけるようにして、テキストでのやり取りをベースにしました。ただ、どうしても口頭で詳細なニュアンスを伝えたいケースもありました。全体の10%ほどです。テキストのみで完結するケースもあります。
実際に運用して実案件の対応をしました。すべて数値として解析可能なので、改善もしやすく満足しています。お役に立てば幸いです。
以上です。