オフラインで動画音声を要約してみる — SRT文字起こし × ローカルAI活用

Posted at 2025-08-24

近年、生成AIによる要約や翻訳を使う機会が増えていますが、多くはクラウドベースで動いています。
一方で「ネットに出したくない音声」「通信環境が制約される状況」では、ローカル環境だけで要約を完結させたい場面もあるでしょう。

そこで今回は、動画音声を文字起こし（SRT化）した上で オフライン環境で要約する 実験を行いました。
題材には BBC News の「What is behind the rise in anti-tourism protests?」というニュース動画を利用しています。

実験の流れ

まず macOS に搭載された Apple Intelligence を利用。

次に LM Studio を利用。
モデルは bartowski/mistralai_Mistral-Small-3.1-24B-Instruct-2503-GGUF を使用しました。

プロンプト例:

このSRTを話者ごとに日本語で要約して。
マークダウンではなく、プレーンテキストで。

さらに openai/gpt-oss-20b を試用。
こちらはファイル入力よりも、全文を直接プロンプトに貼り付けた方が安定した。

本来であれば ROUGE スコアなどを使って要約精度を客観評価するのが望ましいです。
しかし今回は実験の目的が「オフライン要約の実用性確認」だったため、以下のような観点で 簡易比較 にとどめました。

その結果、Apple Intelligence も意外と健闘しており、日常的な「全文要約」用途なら十分活用できると感じました。
一方で「議事録」「話者ごと要約」といった用途では、LM Studio や gpt-oss 系モデルの方が優れていました。

Apple Intelligenceも意外と良い勝負をしていますので、SRTから話者ごとに分解してApple Intelligence　SDKに渡して要約させれば、他と同等くらいまで行ける可能性も高そうです。

実際の会議音声などと組み合わせれば、クラウドを使わずに議事録や要約記事を生成できるポテンシャルがあると感じます。
「セキュアに、オフラインで」要約を完結したい方にとっては、十分検討する価値があるでしょう。

今回は簡易評価にとどめましたが、精度を厳密に測るには ROUGE や BERTScore などの評価指標を導入するのが望ましいです。

FFTrans（オフライン話者分離＋文字起こしMacアプリ）公式サイト
https://www.symphonics.biz/fftrans/