自分のためのメモとして書きなぐっているので全然まとまっていません
別の勉強についての記事を書くはずが手前のところでかなり躓きました
同じように悩んでいる人がいればなにかの助けになれば幸いです
始まり
とある日にぼんやりと学習動画を眺めていると喋っている内容を知りたいのに英語なので『何言ってるかわからないな』と思い、そうだ英会話をやろうと考えオンライン英会話に半年入会していましたが半年で2回しか利用しなかったのでようやく重い腰を上げて休止しました。
しかし英語のチュートリアルを紐解くために何度も動画を止めたり自動生成される字幕の間違いにより学習が進まなかったりしてどうしたものかと落ち込んでいましたが、自分で聞き取れないならwhisperなどにやってもらえばいいんじゃないかと考え最近のAIの恩恵を受けることにしました。
Whisperへアクセス
参考にさせていただいたWhisperの記事を以下にはらせていただきます。
手元の環境がwindows10/windows11/M1Mac とバラバラでチュートリアルどおりに構築してそのまま動いたのは一番古いwindows10の環境だけでした。
ただ調子が悪いのと、1080tiでも特に早くなかったのでどうしたものかなと思っていました。
macは未だに zsh: command not found: whisper と出ますし、win11も同じ状況です。
現状pipでのアクセスは諦め、M1Macにcpp版を入れて使っています。
なんか異常に速いし字幕であればオプションに-ovtt をつけるだけでyoutube向けの字幕フォーマットを出してくれるのでこれがいいやと思っています
% ./main -m models/ggml-small.bin -l en -ovtt -f 音声データへのパス
もともとの講師の喋りがなまりの強い英語だったのですが他にノイズがないこともあり、smallでも精度はいいと思います。
文字起こされる音声データ及びffmpeg
使わせていただいた記事
cpp版は自分が調べた限り、16kのwavでないと取り扱ってくれないのでffmpegで変換しています。
ffmpegについてもなんだか挙動がおかしく、コンソールで叩いても
zsh: command not found: ffmpeg
とか出る様だったので、homebrewをアップデートして、
brew update
ffmpegを特に消さずに無理やりインストールしたところ動きました。
brew install ffmpeg
多分正しいやり方はあると思うので教えてください。
インターネッツに存在する動画ファイルの現代の音声形式はm4aが割りと一般的らしいことを知りました。
% ffmpeg -i 元音声データ.m4a -ar 16000 書き出し先とアプトプット名.wav
で今のところ一つずつ変換しています。
映像データの私的利用について
参考にさせて頂いた記事。
映像データなどはyt-dlpを利用しています。
% yt-dlp -F URL
で、URL先が所有しているフォーマットが全部見れるのはすごくいいなと思っています。
残ったのは英語
手元に動画ファイル、字幕ファイルが揃ったのでDeepLで翻訳すればいいじゃんねと思いましたが無料版だと5000文字という限定されたテキストだったことを思い出して課金しました。
デスクトップ版を用いて翻訳しています。
API使ってコマンドラインからとも思いましたが、結構特殊な用途の動画なので手元で辞書ちまちまつくるかという気持ちのもとコピペしています。
書き出して出来たvttファイルをgoogleDriveに動画とともにアップロードします。
ドライブ上で英語及び日本語の字幕をつけられて便利です
(蛇足)読み上げさせたい 以降はwindowsの処理
棒読みちゃんなどで読み上げたものを動画にくっつけるかと思いました。
v176が欲しい方は以下
そこでサウンドライナーというものの存在を知り、voicevoxやcoeiroinkなど様々な合成音声で読ませる事ができるというソフトウェアを知りました。
ただ、ここではvttは対応していなかったのでsrtというフォーマットに変換する必要があり、これはウェブにある怪しいサイトを使って変換しました。
多分このへんはフォーマットが違うだけなので自分で書けばいいところな気はします。
サウンドライナーを立ち上げ、その後に任意の読み上げソフトを立ち上げなさいと書かれていたので作用になりました。
TTS(text to speach)というwindowsの機能を使っているよなのですが不勉強なのでわかりませんでした。
発話スピードや細かいニュアンスについては操作できないように感じたので、できるようなら教えていただけると助かります。
最近バージョンが改定されていてv174あたりから尺をwavにあわせる形で書き出して(ミックスダウンして)くれるので編集ソフトなどで音声を差し替えるなり加えるなりをすればよいかと思います。
最後にDeepLがかなりのロマンチストであることを皆様にお教えできればと思います。
So all the particles are here on the center and then you have just once and life in tonight.
というフレーズを
つまり全ての粒子はこの中心にあり...そして今夜は一度だけ生命が誕生します。
と翻訳します
すべてのツールの作者様にお礼いたします。
これで・・・、英語を学ばなくても世界中のソースをずんだもんが日本語で喋ってくれるようになるのだ。
推しはCOEIROINKのツクヨミちゃんです。