0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

メタルギアソリッドで学ぶ音声文字起こしWhisper+ChatGPT(2/3)

Last updated at Posted at 2025-07-06

この記事には「メタルギアソリッド」に関する重大な ネタバレ が含まれています。
ネタバレを回避したい方はブラウザバックしてください。

1.はじめに

「メタルギアソリッドで学ぶWhisper+ChatGPT」その2です。
その1もしくはその3はこちら

1-1.前回までの作業

  • OpenAIのPythonライブラリWhisperを用いて、モデルごとに文字起こしファイル(txt)を作成しました

1-2.この記事で行うこと

  • 文字起こしファイルの作成時間及び精度をモデルごとに確認する( この記事で記載
  • 文字起こしファイルをChatGPTに読み込ませ、概要を出力する(3/3で記載)

2.今回使用した音源と筆者人力文字起こし結果(再掲)

MGS1 マスター・ミラーの正体

この動画のうち、無線部分の 約2分32秒(152秒) を文字起こしに使用しました。
※YouTubeの当該部分と同じ音源(mp3)を用いており、YouTubeは使っていません。

ありがとうスネーク、これで起爆コードの入力は完了した。もうメタルギアを止めることはできない。
マスターこれは?
わざわざ鍵を見つけてくれた上、起爆コードの入力までしてくれて本当に恩に着る。
形状記憶合金とはお粗末な話だったが。
何のことだ?
DARPA局長の起爆コードは入手できなかったんだよ
マンティスの能力をもってしても読むことはできなかった。
オセロットは起爆コードを聞き出す前に殺してしまった。
つまり、俺たちは核を撃つことはできなかった。
威嚇発射さえもな。
まさに八方塞がりだった。
核が撃てなければ我々の要求はかなえられない。
マスター、何を言っている?
起爆コードを入手できなくなった以上、別の方法を探すしかない。
そこでスネーク、貴様に賭けてみることにした。
何?
デコイ・オクトパスをDARPA局長に変装させたのもその一つだ。
貴様から情報を得ようとしたのだが…
FOXDIEとはな。
全て最初から仕組まれていたというのか
俺に起爆コードを解除させるために?
ん?もしやここまで来られたのは自分一人の才能だと思っているのか?
マスター、あんたは、あんたはスパイか?
とにかくこれで核発射準備は整った。
新型核を撃ちこんでみせればホワイトハウスの連中もFOXDIEの血清を渡さざるをえまい。
奴らの切り札も無効になる。
切り札?一体?
お前を使ったペンタゴンの目論見は既に達せられているんだよ。
あの拷問部屋で。
知らないのはお前だけだ。
惨めなだスネーク。
貴様、誰だ?
全て教えてやる。もしも俺の元までたどり着けたらな。
どこにいる?
すぐ近くさ
スネーク、そいつはマスターミラーではない!
キャンベル、今頃気づいても遅い。
マスターミラーの遺体が彼の自宅で発見された、死後三日経っている。
マスターとの無線がオフにされていたのでわからなかった。
メイリンによると、発信源はその基地内だ!
じゃ、お前は!?
お前が話していたのは…
俺だ、兄弟。
まさか、リキッドか!
貴様の役割は済んだ、あの世へ行け!

3.各モデルの比較

今回使用したtiny、small、medium、largeのそれぞれを比較しました。
比較のため、全てのモデルで改行を加え、行ごとに内容が一致するように調整しています。
なお、全てのモデル結果を載せると文量が多いので、tinyとlargeのみ最後に全文を掲載します。

サイズ パラメータ数 必要なVRAM 速度 使用
tiny 39M ~1GB ~10x
base 74M ~1GB ~7x
small 244M ~2GB ~4x
medium 769M ~5GB ~2x
large 1550M ~10GB 1x
turbo 809M ~6GB ~8x

3-1.結果の概要

モデル サイズ 経過時間 正確性 備考
tiny 72.1M 21.11秒 精度低め 文の体裁を保てていない部分あり
small 461M 71.56秒 ミス多め 漢字の誤変換多め
medium 1.42G 307.63秒 概ね正確 漢字の変換誤り少々
large 2.88G 545.96秒 最も正確 一部の固有名詞以外はほぼ完璧
  • 経過時間は各モデルのダウンロード時間を含んでいるため、ネット環境が影響する
  • モデルサイズが大きくなるほど時間がかかるが、正確性も高まる
  • (私のPCのスペックが低いのでアレですが)medium以降は音声データの再生時間より、文字起こしに要する時間の方が大きかった(人力で起こすよりは遥かにマシだが…)
  • 内容がよく頭に入っていればギリギリsmallが使える。が、medium以上が良い
  • PCスペック等に問題がなければlargeがおすすめ(句読点もlargeから現れた)
  • tinyは一昔前の音声認識を思い出すレベル

3-2.行ごとの比較(抜粋)

主だった行を比較してみました。tinyが一段下がって苦しい印象です。

6行目

原文 large medium small tiny
DARPA局長の起爆コードは入手できなかったんだよ ダーバ局長の起爆コードは入手できなかったんだよ。 バーパー局長の気爆コードは入手できなかったんだよ バーバー局長の気爆コードは入手できなかったんだよ バーバー極重のキバックコードは入すできなかったのだよ
  • 固有名詞「DARPA局長」はどのモデルでも難しい
  • 「起爆」「気爆」「キバック」の違い
  • tinyのみ「入手」が聞き取れず

22行目

原文 large medium small tiny
ん?もしやここまで来られたのは自分一人の才能だと思っているのか? ん?もしやここまで来られたのは自分一人の才能だと思ってるのか。 もしはここまで来られたのは自分一人の才能だと思ってる もしはここまで来られたのは自分一人の才能だと思っている もしはここまで来られたのは自分にしておりの 最のおだと思っているのか
  • 最初の「ん?」が難しいらしく、largeのみ聞き取れた
  • tinyは初見では意味が分からない

38行目

原文 large medium small tiny
マスターミラーの遺体が彼の自宅で発見された、死後三日経っている。 マスターミラーの遺体が彼の自宅で発見された。死後3日経ってる。 マスターミラーの遺体が彼の自宅で発見された 死後3日経ってる マスターミラーの遺体が彼の自宅で発見された死亡3日経ってる マスターミラーの痛いがやかるのが 自体くて発見されたしんごんみっかたってる
  • tinyはやはり苦しいが、他のモデルはほぼ正確

4.総括

各モデルの評価として、当然といえば当然ですが大きいモデルの方がより正確に文字起こししてくれます。
今回のテストではtinyの正確性に難がある結果となりましたが、約72Mというサイズを考えれば驚異的な正確性とも言えます。
次は文字起こしした中で一番正確だったlargeのテキストファイルをChatGPTにアップロードし、概要などを確認していきます。

5.参考

5-1.tinyモデルの全文

ありがとうスネーク これでキバックコードの入力が完了したもうめたるギアを止めることはできない
ましたこれは
わざわざ管理を見つけてくれたウェーキバックコードの入力までしてくれて本当にオンに行ける
軽重強く動きんだとはおそまつな話だったら
何の言葉
バーバー極重のキバックコードは入すできなかったのだよ 
マンテスの能力を持ってしてもよもことはできなかった 
恐ろっとはキバックコードを聞き出す前に苦ししてしまう 
つまり俺たちは確保をうつことはできなかった
いかく走者さえもな 
まさにハップを挟がりだった
拡掛くてなければわれわれのよう強が 悲えられない
マスター何を言ってる
キバックコードを入手できなくなった以上別の方法を探すしかない
そこでスメイク 様にかけてみることにした
何? 
英語を言う奥とパスを 出発局長に変装させたのもその人をつだ
さまから情報を言えようとしたのだが
フッックスだいたわだ
スメって最初からしっかまれていたというか 
俺に気分くことを解除させるために
もしはここまで来られたのは自分にしておりの 最のおだと思っているのか
マスター アントはアントはスパイカ
とにかくこれで確かしちゃじん 言わととの
人型確保を宇宙混ぜみせれば 古愛とハウスの令中も復福したいの決成を渡ささるを得前 
奴らのキリフだもん向こうになる
キリフだもん一体
お前を使った便宜者も 黒身をすでに達せられているんだよ
あの後もん部屋で
知らないのはお前たけだ
見じめだだすね
さま誰だ
全て教えてやるもし俺の元まで 戦り付けたらな
どこに薄く
近く
スレイク最初はマスターミラーでもない
キャンベル今おろきずいてもそうい
マスターミラーの痛いがやかるのが 自体くて発見されたしんごんみっかたってる
マスタートの無線がオフにされていたのでは 変わらなかった
メイリンによると発信念はそのキスライだ
ちょっ 覚えを
お前が話していたのは
俺だ教えてない
マスターカーリーキットカー
キスタマの役割は進んだ あの様に行き

5-2.largeモデルの全文

ありがとう、スネーク。これで起爆コードの入力は完了した。もうメタルギアを止めることはできない。
マスター、これは?
わざわざ鍵を見つけてくれた上、起爆コードの入力までしてくれて本当に恩に切る。
経常記憶合金だとはお粗末な話だったが。
何のことだ?
ダーバ局長の起爆コードは入手できなかったんだよ。
マンティスの能力を持ってしても読むことはできなかった。
オセロットは起爆コードを聞き出す前に殺してしまった。
つまり、俺たちは核を撃つことはできなかった。
威嚇発射さえもな。
まさに八方塞がりだった。
核が撃てなければ我々の要求は叶えられない。
マスター、何を言ってる?
起爆コードを入手できなくなった以上、別の方法を探すしかない。
そこで、スネーク、貴様に賭けてみることにした。
何?
デコイオクトパスをダーバ局長に変装させたのもその一つだ。
貴様から情報を得ようとしたのだが。
フォックスダイとはな。
全て、最初から仕組まれていたというのか。
俺に起爆コードを解除させるために。
ん?もしやここまで来られたのは自分一人の才能だと思ってるのか。
マスター、あんたは、あんたはスパイか!
とにかくこれで核発射準備は整った。
新型核を撃ち込んでみせればホワイトハウスの連中もフォックスダイの結成を渡さざるを得まい。
奴らの切り札も無効になる。
切り札?一体?
お前を使ったペンタゴンの目論みは既に達せられているんだよ。
あの拷問部屋で。
知らないのはお前だけだ。
惨めだな、スネーク。
貴様は、誰だ?
全て教えてやる。もしも俺の元まで辿り着けたら。
どこにいる?
すぐ近くさ。
スネーク!そいつはマスターミラーではない!
キャンベル。今頃気づいても遅い。
マスターミラーの遺体が彼の自宅で発見された。死後3日経ってる。
マスターとの無線がオフにされていたので分からなかった。
メイリンによると発信源はその基地内だ。
ちょ、お前は?
お前が話していたのは。
俺だ、兄弟。
まさか、リキッドか。
貴様の役割は済んだ。あの世へ行け!
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?