近年、生成AIによる要約や翻訳を使う機会が増えていますが、多くはクラウドベースで動いています。
一方で「ネットに出したくない音声」「通信環境が制約される状況」では、ローカル環境だけで要約を完結させたい場面もあるでしょう。
そこで今回は、動画音声を文字起こし(SRT化)した上で オフライン環境で要約する 実験を行いました。
題材には BBC News の「What is behind the rise in anti-tourism protests?」というニュース動画を利用しています。
実験の流れ
- 動画音声をFFTransで話者分離付きで文字起こしして SRT ファイルを用意
- 用意したテキストを用いて、複数のローカルAI環境で要約
- 要約結果を比較し、どの程度「記事や議事録作成の材料」として使えそうかを評価
1. Apple Intelligence を使った要約・翻訳
まず macOS に搭載された Apple Intelligence を利用。
- 要約機能: テキストを選択して右クリックから「要約」を選ぶだけ。
- 翻訳機能: 同様に「翻訳」を選ぶと対象言語へ変換できる(オフライン辞書が必要な場合あり)。
結果
- 要約は英語で出力されるが、ニュース記事の構造をしっかり捉えていた。
- 翻訳も直訳めきつつ十分実用的。
- 意外と処理が速く、クラウドAIと比較しても体感では遜色ない。
- ただし 話者ごとの分離はできない ため、対話やパネルディスカッション向きではない。
2. LM Studio + ローカルモデルでの要約
次に LM Studio を利用。
モデルは bartowski/mistralai_Mistral-Small-3.1-24B-Instruct-2503-GGUF
を使用しました。
プロンプト例:
このSRTを話者ごとに日本語で要約して。
マークダウンではなく、プレーンテキストで。
結果
- 話者ごとの要約 が可能で、議事録的な整理ができた。
- ただし生成に 72 秒ほどかかり、メモリ使用量も大きい。
- マークダウン出力を避けたい場合でも、多少は形式付けされることが多い。
3. openai/gpt-oss-20b
モデルでの要約
さらに openai/gpt-oss-20b
を試用。
こちらはファイル入力よりも、全文を直接プロンプトに貼り付けた方が安定した。
結果
- 出力速度は 43.86 tok/sec と高速でスムーズ。
- 話者(ナレーター、コメント者)ごとに整理された要約が得られた。
- 内容のまとまりも良く、ニュース議事録の素地として十分使えた。
比較と簡易評価
本来であれば ROUGE スコアなどを使って要約精度を客観評価するのが望ましいです。
しかし今回は実験の目的が「オフライン要約の実用性確認」だったため、以下のような観点で 簡易比較 にとどめました。
- 構造の明確さ(誰が何を言ったかが分かるか)
- 文章の自然さ(読みやすさ、直訳調かどうか)
- 速度と処理負荷
その結果、Apple Intelligence も意外と健闘しており、日常的な「全文要約」用途なら十分活用できると感じました。
一方で「議事録」「話者ごと要約」といった用途では、LM Studio や gpt-oss 系モデルの方が優れていました。
Apple Intelligenceも意外と良い勝負をしていますので、SRTから話者ごとに分解してApple Intelligence SDKに渡して要約させれば、他と同等くらいまで行ける可能性も高そうです。
まとめ
- 動画音声 → SRT文字起こし → ローカルAIで要約・翻訳 という流れは、クラウドに依存せず実現可能。
- Apple Intelligence は速度が速く、単純要約や翻訳であれば実用的。
- LM Studio などローカル LLM は、処理コストは重いものの、話者ごと整理ができるので議事録用途に有効。
- モデルによって出力スタイルや速度が大きく変わるため、目的に応じた選択が重要。
実際の会議音声などと組み合わせれば、クラウドを使わずに議事録や要約記事を生成できるポテンシャルがあると感じます。
「セキュアに、オフラインで」要約を完結したい方にとっては、十分検討する価値があるでしょう。
今回は簡易評価にとどめましたが、精度を厳密に測るには ROUGE や BERTScore などの評価指標を導入するのが望ましいです。
FFTrans(オフライン話者分離+文字起こしMacアプリ)公式サイト
https://www.symphonics.biz/fftrans/