ローカル環境で動画に字幕を付けるアプリの作成

Posted at 2026-05-24

はじめに

AIのコード生成を使いながら、動画に字幕を付けるアプリを作成中です。

といった点があるので、今回は「ローカルだけで完結する」ことを目標に作成しました。

上の動画はNotebookLMに作ってもらったものです

最初は、Microsoft Foundry Local と Whisper を使う構成で試していました。
Whisper自体の文字起こし精度はかなり高く、普通にテキスト化するだけなら十分実用的でした。
ただ、実際に字幕を作ろうとすると問題が発生しました。

字幕ファイル（SRTなど）を作るには、

というタイムスタンプ情報が必要になります。

しかし、最初に使っていたWhisper系ライブラリでは、取得できるデータの中に時間情報が含まれていないようでした。

これでは、

この文章をいつ表示すればいいのか分からない

という状態になります。＼(^o^)／

そこで途中から、Whisper.net を使う構成へ変更しました。
Whisper.netでは、文字起こし結果と一緒にタイムスタンプ情報も取得できたため、字幕生成との相性がかなり良かったです。

例えば、

をまとめて扱えるので、そのままSRT形式へ変換しやすくなりました。

開発中に「動画だけじゃなくてmp3にも使えるのでは？」と気づきました。
試しに英語Podcastへ使ってみたところ、聞き取れていなかったところも理解できるようになってラッキーでした。('ω')

そんな感じで作っていたのですが、その後、
Windows 11 に「Live Captions」という機能が標準搭載されていることに気づきました。／(^o^)＼

Live Captionsは、

などに対してリアルタイムで字幕を付けてくれる機能です。

「えっ、最初から入ってたの！？」となりました。

ただ、結果的には作ってみて良かったと思っています。

実際に実装してみると、

など、かなり理解が深まりました。

また、

みたいな実践的な知識も得られました。

やっぱり、自分で作ってみると分かることが多いですね。＼(^o^)／

今回はFoundry Localを使うつもりだったのでWPFで作成したのですが、ひとまず動けばいいかと思って、Bindingを使わずに作ったのは失敗でした。😣

参考リンク: