Whisperとは
Whisperとは
- OpenAIが発表した汎用の音声認識モデル (GitHub) 無料
- 会議でも音楽でもなんでもいいから人が喋っているwavとかmp3を読ませると喋っている内容を認識して文字に吐き出してくれるすごいやつ
- ChatGPTと同様にOpenAIからWebAPIも公開されている こちらは有料なので注意 後に紹介するlarge-v2相当のモデルを使用しているらしい
- 今回はこれをローカルにインストールしてCPUで動かしてみる(通常はGPUを利用する)
インストールする環境
- CPU: intel core i7-7700
- メモリ: 16GB (8GB*2)
- OS: Windows10 WSL(Ubuntu20.04)
- WSL内にUbuntu3.11インストール済
インストール手順
- テキトーにディレクトリを掘ってPython用の仮想環境を作って仮想環境内に入る
mkdir whisper
cd whisper
python3 -m venv venv
. venv/bin/activate
- whisperをpipインストール
この書き方にすると関連するパッケージをまとめてインストールしてくれる
pip install git+https://github.com/openai/whisper.git
- ffmpegが必要なのでaptでインストール
sudo apt update && sudo apt install ffmpeg
- なんとこれだけでインストール完了!楽ちんちん
モデルについて
- Whisperが音声認識を行う際に学習済みの機械学習データを読ませる必要がある このデータをモデルと呼んでいる
- 異なるサイズのモデルがありサイズが大きくなる程認識率も上がるがデータ量や読込時間も増える
- くわしくはこちらを参照 ←からそのまま持ってきた一覧表が以下
モデル | 必要なメモリサイズ(MB) | 英語のみモデルのタイプ名 | 多言語のタイプ名 | VRAM(ビデオメモリ)使用量 | 読込速度(largeを基準として何倍速いかだと思う) |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
- largeはlarge-v1とlarge-v2がある
- 多分v2が最新のモデルでlargeを指定すると自動でlarge-v2がダウンロードされる
- メモリのサイズは他のソフト動作分も考えて余裕が必要
- 15GB必要なlargeモデルは8GB二枚の16GBだと動かなかった
pythonで早速動かしてみる
- 上記で作成したディレクトリ内(whisperディレクトリ)にテキトーにpythonファイルを作成
touch start.py
- whisperディレクトリ内に読ませたい音声ファイルを配置
- wavでもmp3でも問題なく読んでくれる
- ただし拡張子の指定を間違えるとffmpegのエラーになるので注意
- pythonコードを書いて保存
start.py
import torch
import whisper
torch.cuda.is_available = lambda: False # このコードを書くとCPUで動作するようになる
model = whisper.load_model("medium") # modelのダウンロード場所:~/.cache/whisper
result = model.transcribe("./【音声ファイル名】.wav", verbose=True, language='ja') # 【音楽ファイル名】を適宜変更
text = result['text']
print(text)
result['segment'][1]の中身(下記のハルジオンを読ませたときのデータ)
{'id': 1, 'seek': 0, 'start': 14.0, 'end': 22.0, 'text': '過ぎてゆく時の中 あなたを思い出す', 'tokens': [51064, 8816, 44601, 2996, 34072, 6134, 6611, 2972, 5975, ...], 'temperature': 0.0, 'avg_logprob': -0.4145675572482022, 'compression_ratio': 1.018181818181818, 'no_speech_prob': 0.29553622007369995}
- なんとこれだけで動く!コードも楽ちんちん電車
- 俺の環境だとlargeモデルは途中で落ちてしまい動作しなかったのでmediumモデルを使用
- 処理の途中でモデルをダウンロードするのでディスク容量には余裕を持たせる(下記mediumサイズで1.5G程食う)
-
result['segments']
には認識したデータを時系列別に配列で持っている
- いざ実行
python3 -m start.py
いろんな音声ファイルを読ませてみた
YOASOBI / ハルジオン
出力結果
[00:00.000 --> 00:14.000] 【歌】
[00:14.000 --> 00:22.000] 過ぎてゆく時の中 あなたを思い出す
[00:22.000 --> 00:29.000] 物上に眺める画面に映った二人笑ってた
[00:29.000 --> 00:36.000] 知りたくないほど知りすぎてくこと ただ過ぎる日々に飲み込まれた
[00:36.000 --> 00:43.000] それでもただもう一度だけ会いたくて
[00:43.000 --> 00:48.000] あなたの言葉にくなずき 信じた私を
[00:48.000 --> 00:54.000] 一人置き去りに時は過ぎる 見えていたはずの未来も
[00:54.000 --> 00:58.000] 指の隙間を擦り抜けた
[00:58.000 --> 01:03.000] 戻れない日々の欠片とあなたの気配を
[01:03.000 --> 01:12.000] 今でも探してしまうよ まだあの日の二人に手を伸ばしてる
[01:25.000 --> 01:29.000] 境界線は自分で引いた現実はって見ないふりをしていた
[01:29.000 --> 01:32.000] そんな私じゃ見えない見えない
[01:32.000 --> 01:39.000] 境界線の向こうに咲いた鮮烈な花たちも本当は見えてたのに
[01:39.000 --> 01:46.000] 知らず知らずのうちにすり減らした 心の扉に鍵をかけたの
[01:46.000 --> 01:53.000] そこにはただ美しさのない 私だけが残されていた
[01:53.000 --> 02:01.000] 青すぎる空に目の奥が染みた あの日の景色に取りに帰る
[02:01.000 --> 02:08.000] あなたが好きだと言ってくれた私を
[02:08.000 --> 02:16.000] 誰にも見せずにこの手で隠した想いが 今も私の中で生きてる
[02:16.000 --> 02:22.000] 目を閉じてみれば今も鮮やかに蘇る景色と
[02:22.000 --> 02:27.000] 戻れない日々の欠片が映し出したのは
[02:27.000 --> 02:33.000] 蕾のまま閉じ込めた未来 もう一度描き出す
[02:33.000 --> 02:38.000] あの日のあなたの言葉と美しい時と
[02:38.000 --> 02:43.000] 二人で過ごしたあの景色が忘れてた
[02:43.000 --> 02:48.000] 思いと失くしたはずの未来は繋いでく
[02:48.000 --> 02:53.000] 戻れない日々の続きを歩いてゆくんだ
[02:53.000 --> 02:57.000] これからもあなたがいなくても
[02:57.000 --> 03:07.000] あの日の二人二手を振れば確かに動き出した未来へ
[03:13.000 --> 03:18.000] 作詞・作曲・編曲・編曲
- スタンダードなポップスを読ませてみる
- mediumモデルでもかなり正確に歌詞の内容を書き出せている
- 歌いだし前と歌終わりから曲終わりまでの部分で謎の文章が出力されている
ナユタン星人(初音ミク) / エイリアンエイリアン
出力結果
[00:00.000 --> 00:01.200] 《
[00:01.200 --> 00:02.000] 《
[00:02.000 --> 00:03.000] 《
[00:03.000 --> 00:04.000] 《
[00:04.000 --> 00:05.000] 《
[00:05.000 --> 00:06.000] 《
[00:06.000 --> 00:07.000] 《
[00:07.000 --> 00:08.000] 《
[00:08.000 --> 00:09.000] 《
[00:09.000 --> 00:10.000] 《
[00:10.000 --> 00:11.000] 《
[00:11.000 --> 00:12.000] 《
[00:12.000 --> 00:13.000] 《
[00:13.000 --> 00:14.000] 《
[00:14.000 --> 00:15.000] 《
[00:15.000 --> 00:16.000] 《
[00:16.000 --> 00:17.000] 《
[00:17.000 --> 00:18.000] 《
[00:18.000 --> 00:19.000] 《
[00:19.000 --> 00:25.000] 揺れる街灯 色付く雨 触れる感情 感覚のテレパス
[00:25.000 --> 00:32.000] ライトの二人はどんなこと 心は恋を知りました
[00:37.000 --> 00:41.000] パパパパッと踊りはぎる セールク中
[00:41.000 --> 00:44.000] そのディスコミュニケーションが
[00:44.000 --> 00:51.000] こう 色々にキラキラなり方 誇る皆様に
[00:56.000 --> 01:02.000] エイリアン 私エイリアン あなたの心を惑わせる
[01:02.000 --> 01:09.000] まわり合う宇宙の遠くで 感じてる気持ちはとくねく
[01:09.000 --> 01:15.000] エイリアン あなたのエイリアン 引きあう心は逃れられない
[01:15.000 --> 01:24.000] あなたに未来を描ける 異世界の果てまで 遠く尽くす水
[01:25.000 --> 01:28.000] エイリアン 私エイリアン 遠く尽くす水
[01:28.000 --> 01:34.000] エイリアン 私エイリアン 遠く尽くす水
[01:34.000 --> 01:37.000] 伝統と衝動 繰り返している結構と
[01:37.000 --> 01:40.000] 強調な混沌が 静かにあなたを蒸し晩が
[01:40.000 --> 01:43.000] 平和な信仰が 得意点により交わった
[01:43.000 --> 01:46.000] 相当現実の信条 感動情懇の
[01:46.000 --> 01:50.000] ディスコミュニケーションは 独り気にも名を撒く
[01:50.000 --> 01:55.000] そう 確信の結局も 当たり前かけて冬って
[01:55.000 --> 01:59.000] またあなたは 全てを知りたい
[02:05.000 --> 02:11.000] エイリアン 私エイリアン あなたの心を惑わせる
[02:11.000 --> 02:16.000] 瞳に映らない悪に 気づいてよ私は
[02:16.000 --> 02:20.000] エイリアン あなたのエイリアン 触れ合えた
[02:20.000 --> 02:23.000] せずは二度と触れない 振りそばず
[02:23.000 --> 02:28.000] 渦に移っても トキメク心には 動かさない
[02:28.000 --> 02:34.000] エイリアン 手繰り返りエイリアン 支えられない
[02:34.000 --> 02:39.000] あなたは未確認の命名が 消えたいの果てまで
[02:39.000 --> 02:42.000] あなたが主人
[02:46.000 --> 02:52.000] サブタイトル・インスタントリーナ
- ボーカロイドを読ませてみた
- やはり人間と比べると認識率は落ちる
- 2回目のBメロ部分原型残ってねぇ
- 冒頭の《《《《が《》《》って出てたら面白かったのに・・・惜しい!
米津玄師/KICK BACK
出力結果
[00:00.000 --> 00:19.000] Believe in your life, I'm gonna fall in love
[00:19.000 --> 00:22.000] ランドに今日はガラキでラッキーで
[00:24.000 --> 00:28.000] 語りあぶなよ これもこれでボイボイ
[00:28.000 --> 00:32.000] 誰だ 誰だ 頭の長い呼びかける声は
[00:32.000 --> 00:36.000] あれが欲しい これが欲しいと歌ってる
[00:37.000 --> 00:41.000] 幸せになりたい ラッチで生きていたい
[00:41.000 --> 00:50.000] この手に掴みたい あなたのその胸の中
[00:51.000 --> 00:56.000] ハッピーで埋め尽くして レスティン・ピースまで行こうぜ
[00:56.000 --> 01:00.000] いつか見た地獄の良いところ 愛の花もいて
[01:01.000 --> 01:06.000] I love you 受け出してくれ 全部奪って笑ってくれ My honey
[01:06.000 --> 01:13.000] Don't look me like a foolster
[01:13.000 --> 01:15.000] なんか忘れちゃってんの
[01:15.000 --> 01:25.000] Believe in your life, I'm gonna fall in love
[01:25.000 --> 01:28.000] よいよい 勇敢であずれる探索
[01:30.000 --> 01:33.000] ハングリークを知らせて飽きそうな人生
[01:34.000 --> 01:38.000] 止まない雨はないより先にその傘をくれ
[01:38.000 --> 01:43.000] あれが欲しい これが欲しいすべて欲しいだら無駄じゃ
[01:44.000 --> 01:53.000] 幸せになりたい ラッチで生きていたい
[01:53.000 --> 02:09.000] 全部めちゃくちゃにしたい 何もかも消さりたい あなたのその胸の中
[02:14.000 --> 02:18.000] ラッキーで埋め尽くして レスティン・ピースまで行こうぜ
[02:18.000 --> 02:22.000] 良い子だけ迎える天国じゃどうも行けられない
[02:23.000 --> 02:28.000] I love you 受け出してくれ 全部奪って笑ってくれ My honey
[02:28.000 --> 02:35.000] Don't look me like a foolster
[02:35.000 --> 02:37.000] なんか忘れちゃってんの
[02:37.000 --> 02:42.000] ラッキー ラッキー こんにちは Baby
[02:42.000 --> 02:46.000] 良い子でいたいそりゃつまらない
[02:46.000 --> 02:51.000] ラッキー ラッキー こんにちは Baby
[02:51.000 --> 02:56.000] Don't look me like a foolster
[02:56.000 --> 02:59.000] Don't look me like a foolster
[02:59.000 --> 03:01.000] なんかすごい良い感じ
- 最近聴いた歌の中で一番歌詞が聞き取りにくかった曲を識別させてみた
- いきなりフォーリンラブしててウケる
- Don't look me like a foolsterは本当の歌詞より好きかも
- 「私を愚か者だと思わないで」
Aitsu koso ga Tennis no Oujisama (あいつこそがテニスの王子様)
出力結果
[00:00.000 --> 00:08.000] エッジセン、お前は、お前は聖学の柱になれ
[00:08.000 --> 00:12.000] さあ、レッドブランセットマッチ、聖学サービスへ
[00:12.000 --> 00:19.000] 行け、エッジセン、お前の行く手には
[00:19.000 --> 00:24.000] 俺たちの世界がある
[00:25.000 --> 00:32.000] 飛べ、エッジセン、何も恐れる
[00:32.000 --> 00:38.000] お前の車、ガッツを見せてくれ
[00:38.000 --> 00:44.000] そこが、エッジセン、ひらすばと見まごう
[00:44.000 --> 00:50.000] スイスとサーブで消えろ
[00:51.000 --> 00:58.000] 一途、エッジセン、目にも止まらぬ
[00:58.000 --> 01:05.000] スピードを持つスマッシュをぶちかませ
[01:21.000 --> 01:27.000] ゴー、エッジセン、かかんな態度で
[01:27.000 --> 01:32.000] 新しい技、操れ
[01:33.000 --> 01:40.000] オーライ、エッジセン、悪くんじゃないよ
[01:40.000 --> 01:46.000] お前に不可能なことは何もない
[01:50.000 --> 01:55.000] あらゆる人を遠目させる
[01:55.000 --> 01:59.000] お前のテニスは思考の技
[01:59.000 --> 02:02.000] お前は聖学の柱になれ
[02:02.000 --> 02:08.000] 俺たちの栄光を導け
[02:20.000 --> 02:23.000] あなたは、飛ぶ術の道場をやってるらしい
[02:23.000 --> 02:27.000] 清にとって、あのフォームが自然体内やだ
[02:29.000 --> 02:33.000] 相変わらずだね
[02:33.000 --> 02:39.000] エッジセン、リョーマ、何度の高いテクで
[02:39.000 --> 02:42.000] 試合を盛り上げる
[02:42.000 --> 02:48.000] お前は、僕を熱くする
[02:48.000 --> 02:53.000] お前は、人を引きつける
[02:53.000 --> 02:57.000] ベーステンション、ベースコミッション
[02:57.000 --> 03:00.000] You are the best
[03:00.000 --> 03:05.000] You are the prince of tennis
[03:18.000 --> 03:22.000] 清和歌手、2年間、アグレッシブベースライダー
[03:22.000 --> 03:25.000] 性格は冷静沈着で他人に流されない
[03:25.000 --> 03:28.000] 少し真剣したメンバーが常に前向きで
[03:28.000 --> 03:31.000] 少し惨憺と精霊技などを狙っていたようだ
[03:31.000 --> 03:34.000] 誕生日は12月5日、血液型はAB型
[03:34.000 --> 03:36.000] 好きな言葉は?
[03:36.000 --> 03:38.000] 下国上だ
[03:38.000 --> 03:45.000] 下国上だぜ、潰せ
[03:45.000 --> 03:51.000] もう仕上がるぜ、上場まで
[03:51.000 --> 03:56.000] 追いかけるのが快感だぜ
[03:57.000 --> 04:03.000] 追いついて、潰す
[04:04.000 --> 04:10.000] 下国上で言うけど
[04:10.000 --> 04:16.000] 俺には関係ないさ
[04:16.000 --> 04:22.000] 敵が強ければ強いほど
[04:22.000 --> 04:29.000] 対等にぶつかり合うだけ
[04:29.000 --> 04:37.000] 下国上だぜ、下国上だぜ、潰せ
[04:38.000 --> 04:39.000] 俺は上に行くよ
[04:40.000 --> 04:42.000] 今度はXXくんの反撃、ドライブBです
[04:42.000 --> 04:45.000] すごいです、要所一本も打つらないです
[04:45.000 --> 04:47.000] お互い大技出しまくりだな
[04:47.000 --> 04:49.000] 行け、XXくん
[04:49.000 --> 04:55.000] 僕の目標さ、平地前両間
[04:55.000 --> 05:02.000] まっすぐ見据えた視線、裏ぐことなどない
[05:03.000 --> 05:08.000] お前は俺を熱くする
[05:09.000 --> 05:14.000] お前は人を引きつける
[05:14.000 --> 05:18.000] ベストテンション、ベストフィッション
[05:18.000 --> 05:21.000] You are the best!
[05:21.000 --> 05:27.000] You are the best of me!
[05:28.000 --> 05:30.000] カバジ、なんか震えてる
[05:30.000 --> 05:35.000] そういう勇士、お前も、俺もだけど
[05:35.000 --> 05:37.000] 何としても勝てひよし
[05:37.000 --> 05:41.000] 俺たちはここで終わるわけにはいかない
[05:41.000 --> 05:45.000] しびしけ、あと10ゲームはいける
[05:45.000 --> 05:48.000] 俺あと20ゲームはいけるよ
[05:48.000 --> 05:49.000] 偉すぎちゃう
[05:49.000 --> 05:53.000] おい、小僧、相手が歓喜をつかじめたぞ
[05:53.000 --> 05:55.000] あの時の俺と同じだ
[05:55.000 --> 05:57.000] さあ、どうする小僧
[05:57.000 --> 06:01.000] お前の真摯な態度が
[06:01.000 --> 06:04.000] ムカつくほどだって
[06:04.000 --> 06:08.000] しかし、人の心を
[06:08.000 --> 06:14.000] 動かすその裏はなんだ
[06:14.000 --> 06:21.000] 俺に人生を考えさせる
[06:21.000 --> 06:26.000] 強さゆえの厳しさを
[06:26.000 --> 06:29.000] その高貴な輝きに
[06:29.000 --> 06:34.000] 人は瞬きをあすれる
[06:36.000 --> 06:39.000] 照れくさいほどの
[06:39.000 --> 06:42.000] 虚微ながら似合う
[06:42.000 --> 06:45.000] お前はまさしく
[06:45.000 --> 06:49.000] テニスのおじさん
[06:49.000 --> 06:53.000] You are the prince of the ring
[06:53.000 --> 06:58.000] You are the prince of the ring
[06:59.000 --> 07:01.000] おーい、絶対止まんねー
[07:01.000 --> 07:02.000] 両馬くんすごい
[07:02.000 --> 07:05.000] そうか、エチェーンでずっと補決で
[07:05.000 --> 07:07.000] みんなの試合見ててうつんだたまってたんだな
[07:07.000 --> 07:11.000] そして、あのテスカ戦を目の前で見たんだ
[07:11.000 --> 07:13.000] いつも以上にテンションが上がって
[07:13.000 --> 07:14.000] プレイできるのも同じケール
[07:14.000 --> 07:17.000] いや、あれが本来の
[07:17.000 --> 07:19.000] 彼のベストテンションなのかもしれない
[07:19.000 --> 07:22.000] ねえ、あと100ゲームやる?
[07:24.000 --> 07:26.000] ベストテンション
[07:26.000 --> 07:29.000] You are the prince of the ring
[07:29.000 --> 07:31.000] プレイするのも同じケール
[07:31.000 --> 07:34.000] You are the prince of the ring
[07:34.000 --> 07:40.000] You are the prince of the ring
[07:43.000 --> 07:45.000] 勝ったけど
[07:45.000 --> 07:46.000] ゲーム戦
[07:46.000 --> 07:48.000] やったー、勝ったー
[07:48.000 --> 07:51.000] 今回は勝手、ゲームカウントはシステム5
[07:51.000 --> 07:53.000] やったー、勝ったー
[07:53.000 --> 07:57.000] 以上により、3勝2敗ワンノーゲーム
[07:57.000 --> 07:59.000] 正楽の勝利です
[07:59.000 --> 08:02.000] 両チームとも、清列してください
[08:08.000 --> 08:11.000] 礼、ありがとうございました
[08:11.000 --> 08:29.000] 礼、礼、礼
[08:41.000 --> 08:43.000] 礼、礼、礼
- 空耳ソング読ませたらどうなるんだ?実験
- 間奏中の会話がところどころ認識されていない
- テニスのおじさん
- 偉すぎちゃう
- やったー、勝ったー
- 精霊技などを狙っていた
- ベストテンション、ベストフィッション
ST☆RISH/マジLove1000%
- https://www.nicovideo.jp/watch/so15013657
- 下記はiTunesで買った音源を読ませたのでセリフ部分は無い
出力結果
[00:00.000 --> 00:04.400] ドキドキで壊れそう センパス&ラブ
[00:04.400 --> 00:04.900] Hey!
[00:04.900 --> 00:06.400] 10 Are you ready?
[00:06.400 --> 00:08.200] 9 Are you ready?
[00:08.200 --> 00:10.200] 8 Are you ready?
[00:10.200 --> 00:13.800] 7 6 5 Are you ready?
[00:13.800 --> 00:15.700] 4 Are you ready?
[00:15.700 --> 00:17.500] 3 Are you ready?
[00:17.500 --> 00:19.200] 2 1
[00:21.800 --> 00:24.600] さあ Let's go 夢を歌おう
[00:24.600 --> 00:26.400] Let's shout 空に歌おう
[00:26.400 --> 00:29.700] Let's go 弾ける物語にしちゃい
[00:29.700 --> 00:32.400] 行きましょう 未来の地図を
[00:32.400 --> 00:34.200] Yes! Yes! 君と描こう
[00:34.200 --> 00:36.200] このレボリューション
[00:36.200 --> 00:38.200] We are 行きましょう
[00:38.200 --> 00:42.200] I will change the star
[00:42.200 --> 00:44.200] Check it out
[00:44.200 --> 00:47.200] ギリギリな胸の鼓動
[00:47.200 --> 00:48.200] Oh baby
[00:48.200 --> 00:51.200] 強引になる恋のショート
[00:51.200 --> 00:54.700] どっちを目指すプリセンス
[00:54.700 --> 00:56.700] クラクラしちゃうくらい
[00:56.700 --> 00:58.200] センパス&ラブ
[00:58.200 --> 01:00.200] なぜか 聞いて
[01:00.200 --> 01:02.700] 溢れてる 心
[01:02.700 --> 01:05.700] 騒ぐ 不思議な Wave
[01:05.700 --> 01:07.700] まだ見ぬ星座を
[01:07.700 --> 01:09.700] ターティーで紡いで
[01:09.700 --> 01:11.700] Kiss you すごい
[01:11.700 --> 01:15.700] 歌で 世界を創ろう
[01:15.700 --> 01:18.700] さあ Let's dance 夢を踊ろう
[01:18.700 --> 01:20.700] Let's shout 空に踊ろう
[01:20.700 --> 01:22.700] やりすぎなくらいがいい
[01:22.700 --> 01:24.700] さあ 準備はOK
[01:24.700 --> 01:25.700] 一回きりの
[01:25.700 --> 01:27.700] Yes! Yes! スペシャル人生
[01:27.700 --> 01:29.700] 教科書には
[01:29.700 --> 01:31.700] We are 載ってない
[01:31.700 --> 01:35.700] I will change the star
[01:35.700 --> 01:37.200] Check it out
[01:37.200 --> 01:38.700] 今宵 今 ほら
[01:38.700 --> 01:39.700] 二人で
[01:39.700 --> 01:41.700] センパス&ラブ
[01:41.700 --> 01:44.700] 七色のコンパスに
[01:44.700 --> 01:45.700] うやり
[01:45.700 --> 01:47.200] 自分だけの
[01:47.200 --> 01:49.200] Brand new メロディー
[01:49.200 --> 01:50.200] 見つけたいの
[01:50.200 --> 01:52.200] らしさってやつ
[01:52.200 --> 01:54.200] だから伝えたいんだ
[01:54.200 --> 01:56.200] センパス&ラブ
[01:56.200 --> 01:58.200] 強く響く
[01:58.200 --> 01:59.700] ロキオザマイン
[01:59.700 --> 02:00.700] Believe how
[02:00.700 --> 02:03.700] そして トキハナシング
[02:03.700 --> 02:05.700] 男儀展開
[02:05.700 --> 02:07.700] オリオン越えて
[02:07.700 --> 02:09.700] 虹より輝く
[02:09.700 --> 02:13.700] 花を咲かせましょう
[02:13.700 --> 02:16.200] さあ Let's peace 夢を飛ぼうよ
[02:16.200 --> 02:18.200] Let's shout 空を飛ぼうよ
[02:18.200 --> 02:22.700] Let's go 名最高な時間を旅しませんか
[02:22.700 --> 02:23.700] 百万回の
[02:23.700 --> 02:25.700] Yes! Yes! 失敗だって
[02:25.700 --> 02:27.700] この Love Passion
[02:27.700 --> 02:29.700] We are 封じけない
[02:29.700 --> 02:34.700] 愛で Change the star
[02:34.700 --> 02:38.700] 今すぐに君を抱きしめたいよ
[02:38.700 --> 02:46.700] だって君をまじで守りたいから
[02:46.700 --> 02:49.700] 今すぐに君を抱きしめたいよ
[02:49.700 --> 02:57.700] だって君をまじで守りたいから
[02:57.700 --> 03:00.700] さあ Let's song 夢を歌おう
[03:00.700 --> 03:02.700] Let's shout 空に歌おう
[03:02.700 --> 03:06.700] Let's go 弾ける物語にしちゃいましょう
[03:06.700 --> 03:08.700] 未来の地図を
[03:08.700 --> 03:10.700] Yes! Yes! 君と描こう
[03:10.700 --> 03:12.700] この Revolution
[03:12.700 --> 03:14.700] We are 行きましょう
[03:14.700 --> 03:18.700] 愛を Change the star
[03:18.700 --> 03:21.700] Check it out 今宵は
[03:21.700 --> 03:25.700] 愛を Change the star
[03:25.700 --> 03:27.700] Check it out 今宵は
[03:27.700 --> 03:30.700] ほら二人で 1000% Love
- センパス&ラブ
- トキハナシング
- 男儀展開
After Dark / (Åh) När ni tar saken i egna händer(高らかに○ナ○ー)
出力結果
[00:00.000 --> 00:09.500] 《たらわたのimiz LOLOS Putin》
[00:09.500 --> 00:18.500] 晴三福
[00:18.500 --> 00:26.500] 晴三胸
[00:26.500 --> 00:36.500] 晴三福
[00:36.500 --> 00:46.500] 晴三福
[00:47.500 --> 00:56.500] 晴三福
・・・(ずっと晴三福が続く)
- 外国語を日本語として読ませてみた
- 全く日本語として認識されず意味不明な文字が出力されて終わった
つまんねー - 外国歌詞の空耳はあまり期待できなさそう
番外編 日本語の歌詞を英語として認識させてみた
マキシマムザホルモン/恋のメガラバ
- れっきとした日本語の歌詞だが英語ネイティブが聞くと英語の歌詞のように聞こえる(空耳)らしい
- 絶望ビリーの英語空耳は裏歌詞と呼ばれて以前ちょっと話題になってた気がする
- そこでWhisperを使用して英語として解析させてみた
解析結果(英語)
[00:00.000 --> 00:11.000] Bitch you rock it, rock it, you wave
[00:11.000 --> 00:33.000] Bitch you rock it, rock it, you wave
[00:42.000 --> 00:46.000] Show me the money, gonna sell
[00:46.000 --> 00:48.000] Some people, people they sell
[00:48.000 --> 00:50.000] Some service, get on this band
[00:50.000 --> 00:52.000] Throw it back, I ain't gonna stall
[00:52.000 --> 00:53.000] I'm fat, you're running
[00:53.000 --> 00:55.000] I'm never, never this band
[00:55.000 --> 00:57.000] Who the bitch you wanna nut-skate?
[00:57.000 --> 00:59.000] My bag is full of sausages
[00:59.000 --> 01:01.000] Nero, nero, nero, bango, bango
[01:01.000 --> 01:03.000] It's just gonna cool my skin
[01:03.000 --> 01:05.000] It's gonna cure my insides
[01:05.000 --> 01:07.000] It's gonna cure it all night
[01:08.000 --> 01:10.000] Everyone is fighting against each other
[01:10.000 --> 01:12.000] They're fighting with their heads down
[01:12.000 --> 01:14.000] They're fighting with their heads down
[01:14.000 --> 01:16.000] They're fighting with their heads down
[01:16.000 --> 01:18.000] They're fighting with their heads down
[01:18.000 --> 01:20.000] They're fighting with their heads down
[01:20.000 --> 01:22.000] I'm fat, you're running
[01:22.000 --> 01:24.000] I'm never, never this band
[01:24.000 --> 01:26.000] Who the bitch you wanna nut-skate?
[01:26.000 --> 01:28.000] My bag is full of sausages
[01:28.000 --> 01:30.000] Nero, nero, nero, bango, bango
[01:30.000 --> 01:32.000] It's just gonna cool my skin
[01:32.000 --> 01:34.000] It's gonna cure my insides
[01:34.000 --> 01:36.000] It's gonna cure it all night
[01:37.000 --> 01:39.000] Goodbye, end of cyborg
[01:39.000 --> 01:41.000] Hello, end of the misery
[01:41.000 --> 01:43.000] More than we deploy
[01:43.000 --> 01:45.000] Tell more than we deploy
[01:45.000 --> 01:47.000] More than we know, sorry
[01:47.000 --> 01:49.000] Sorry, no, more than we know
[01:49.000 --> 01:51.000] It's not real, it's not real
[01:51.000 --> 01:53.000] Tonight is more than a flight in my room
[01:54.000 --> 01:56.000] No make, throw away
[01:56.000 --> 01:58.000] Give us the love we
[02:00.000 --> 02:02.000] Gotta fall in down in
[02:02.000 --> 02:04.000] In the middle of the night, got it
[02:06.000 --> 02:08.000] Oh, ready or not go, I'm a bad middle
[02:08.000 --> 02:10.000] Middle, falling down
[02:12.000 --> 02:14.000] Take it off, shake your body
[02:14.000 --> 02:16.000] Shake your body
[02:16.000 --> 02:18.000] No fuck, black cloths on my mama's mind
[02:18.000 --> 02:20.000] Yeah, sing it louder, speak it
[02:20.000 --> 02:22.000] You make it louder, speak it louder
[02:22.000 --> 02:24.000] Speak it, you make it louder
[02:24.000 --> 02:26.000] Bitch, you're a lover, pick up
[02:26.000 --> 02:28.000] You make it louder, I'll make it louder
[02:28.000 --> 02:30.000] Sing it louder, speak it
[02:30.000 --> 02:32.000] You make it louder, speak it louder
[02:32.000 --> 02:34.000] Speak it, you make it louder
[02:34.000 --> 02:36.000] Bitch, you're a lover, pick up
[02:36.000 --> 02:38.000] You make it louder, I'll make it louder
[02:38.000 --> 02:40.000] Sing it
[02:52.000 --> 02:54.000] Show me the money, I'm gonna sell
[02:54.000 --> 02:56.000] To people, people, they sell
[02:56.000 --> 02:58.000] From seven scale, they sell
[02:58.000 --> 03:00.000] Through the back, I'm gonna score
[03:00.000 --> 03:02.000] And find the money
[03:02.000 --> 03:04.000] Who knows what you wanna do
[03:04.000 --> 03:06.000] But I guess I'm a racist
[03:06.000 --> 03:08.000] Middle, middle, middle
[03:08.000 --> 03:10.000] It's gonna go on the street
[03:10.000 --> 03:12.000] It's gonna kill my respect
[03:12.000 --> 03:14.000] It's gonna kill it all, mate
[03:14.000 --> 03:16.000] I think I need my thoughts
[03:16.000 --> 03:18.000] Give me a legal
[03:18.000 --> 03:20.000] Come on, make it small, it's nobody
[03:20.000 --> 03:22.000] I think I need my big kitty
[03:22.000 --> 03:24.000] It's a little
[03:24.000 --> 03:26.000] I'm gonna be a good boy
[03:26.000 --> 03:28.000] Who knows what you wanna do
[03:28.000 --> 03:30.000] But I guess I'm a racist
[03:30.000 --> 03:32.000] Middle, middle, middle
[03:32.000 --> 03:34.000] It's gonna go on the street
[03:34.000 --> 03:36.000] It's gonna kill my respect
[03:36.000 --> 03:38.000] It's gonna kill it all, mate
[03:38.000 --> 03:40.000] Hey little rebel
[03:40.000 --> 03:42.000] Shall we go into bed?
[03:42.000 --> 03:46.000] Goodbye, end of cyborg
[03:46.000 --> 03:48.000] Hello, end of the misery
[03:48.000 --> 03:52.000] More little boy, tell more little boy
[03:52.000 --> 03:54.000] More loving, long-sighted, stardom
[03:54.000 --> 03:56.000] Most of us money
[03:56.000 --> 03:58.000] We're necessary to win
[03:58.000 --> 04:00.000] It's more than 40 miles
[04:00.000 --> 04:02.000] No make-or-weak
[04:02.000 --> 04:04.000] Keep it what's the love it
[04:06.000 --> 04:08.000] You gotta fall in darling
[04:08.000 --> 04:10.000] In the love of your gunning
[04:12.000 --> 04:14.000] Oh, lady you're my gold
[04:14.000 --> 04:16.000] I'm a best middle
[04:16.000 --> 04:18.000] Middle, full in love
[04:18.000 --> 04:20.000] I hear you take a party
[04:20.000 --> 04:22.000] Shake your body
[04:22.000 --> 04:24.000] No fabric, no some of my money
[04:24.000 --> 04:26.000] Yeah, sweet desire, sweet kiss
[04:26.000 --> 04:28.000] Pick up, you make a lover
[04:28.000 --> 04:30.000] Speak your lover, speak up
[04:30.000 --> 04:32.000] You make a lover, bitch lover
[04:32.000 --> 04:34.000] Pick up, you make a lover
[04:34.000 --> 04:36.000] Party to lover side
[04:36.000 --> 04:38.000] Sweet desire, sweet kiss
[04:38.000 --> 04:40.000] You make a lover, speak your lover
[04:40.000 --> 04:42.000] Pick up, you make a lover
[04:42.000 --> 04:44.000] Bitch lover, pick up
[04:44.000 --> 04:46.000] You make a lover, party to lover side
[04:56.000 --> 04:58.000] Bitch lover, pick up
[04:58.000 --> 05:00.000] You make a lover, pick up
[05:00.000 --> 05:02.000] You make a lover, pick up
[05:06.000 --> 05:09.000] Baby, baby, baby is like a fire
[05:09.000 --> 05:13.000] Baby, baby, baby is like a fire
[05:23.000 --> 05:25.000] Singing it, baby!
- 思っていたよりめっちゃ英語として認識された
- 基本意味不明だがところどころそれっぽい歌詞になっているような気がする
- ちなみに日本語として識別させようとしたら全く識別できなかったw
- 英語のみモデル(medium.en)も試してみたが全く識別できなかった 多言語モデルのほうが他言語訛りの英語には強いかも?
最後に
- 応用したら色々なことに活用できそうな可能性を感じた
- 選曲のセンスって歳が出る