🧠 Otter.ai × Whisper × Colab:英語会話を録音→MP3→高精度文字起こしまで一括処理!
🎯 この記事でできること
- Otter.aiで会議や講義を録音&ダウンロード
- 録音ファイル(WAV/M4A/WEBMなど)をMP3に変換
- Google Colab + Whisperで英語文字起こし(MP3対応)
- 議事録・字幕・要約などへの応用
🔁 フロー全体図
📡 Otter.ai録音(講義・会議・取材)
↓(録音完了後ダウンロード)
🎧 音声ファイル(WEBM/WAV/M4Aなど)
↓(MP3に変換)
🎵 MP3ファイル
↓(Colabにアップロード)
🧠 Whisperで英語文字起こし
🧾 ステップ① Otter.aiで録音・保存
Otterの使い方(要ログイン):
-
https://otter.ai にアクセス
-
「Record」ボタンを押して録音開始
-
録音が終わったら、「Export Audio」から音声ファイルをダウンロード
- 出力形式:
.m4a
/.webm
/.wav
- 出力形式:
🎼 ステップ② 音声をMP3に変換(Colab上)
Google Colabで.webm
や.m4a
を.mp3
に変換するにはffmpeg
を使います。
# 音声ファイルをアップロード(Otterから保存したファイルを選択)
from google.colab import files
uploaded = files.upload()
# 最初のファイル名を取得
filename = next(iter(uploaded))
# ffmpegでMP3に変換
import os
mp3_filename = os.path.splitext(filename)[0] + ".mp3"
!ffmpeg -i "{filename}" "{mp3_filename}"
🔍 ステップ③ Whisperで英語文字起こし(MP3ファイル)
# Whisperのインストール
!pip install openai-whisper ffmpeg-python
# WhisperでMP3ファイルを英語で文字起こし
import whisper
model = whisper.load_model("medium") # "small" や "large" も選択可
result = model.transcribe(mp3_filename, language="en")
# テキスト保存&表示
with open("transcription_en.txt", "w", encoding="utf-8") as f:
f.write(result['text'])
print("✅ Whisper transcription completed:\n")
print(result['text'])
🧠 OtterとWhisperの連携と違い
特徴 | Otter.ai | Whisper + Colab |
---|---|---|
リアルタイム対応 | ◎ Zoom・Google Meetと連携可能 | × 後処理型 |
高精度・カスタム自由度 | △ 単語単位の訂正は難しい | ◎ モデル選択・編集・整形が自在 |
ファイル形式 | .m4a, .webm, .wav など | .mp3 に変換して入力 |
話者分離(Speaker ID) | ◎(話者ラベル自動) | △(分離不可。外部ツールが必要) |
要約・翻訳・整形 | ○ キーワード抽出、文単位整形あり | ◎ Pythonで自由に拡張可能 |
✅ 応用:字幕ファイル(SRT形式)で出力したいとき
# SRT形式で出力(タイムスタンプ付き)
result = model.transcribe(mp3_filename, language="en", task="transcribe", verbose=True)
with open("output.srt", "w", encoding="utf-8") as f:
for segment in result["segments"]:
f.write(f"{segment['id']+1}\n")
start = segment["start"]
end = segment["end"]
f.write(f"{start:.2f} --> {end:.2f}\n")
f.write(f"{segment['text']}\n\n")
🎬 まとめ
- Otter.aiでその場の会話を録音、あとで「Export Audio」すれば音声ファイルが手に入る
- それをGoogle ColabでMP3に変換 → Whisperで高精度文字起こし
- カスタマイズやデータ分析、字幕生成、翻訳にも発展できる
# Program Name: local_mp3_transcribe_whisper_en.py
# Creation Date: 20250702
# Overview: Upload a local MP3 file to Google Colab and transcribe its English audio using Whisper
# Usage: Run cell-by-cell. Upload MP3 file and get transcription result.
# === 必要なライブラリのインストール / Install Required Packages ===
!pip install openai-whisper ffmpeg-python
# === ファイルアップロード / Upload MP3 File ===
from google.colab import files
uploaded = files.upload() # ← ここでMP3ファイルを選ぶ!
# === ファイル名取得 / Get Filename ===
filename = next(iter(uploaded))
# === Whisperで英語文字起こし / Transcribe English Audio ===
import whisper
model = whisper.load_model("medium") # "base", "small", "medium", "large"
# 言語を英語に指定して文字起こし
result = model.transcribe(filename, language="en")
# === 出力保存 / Save to Text File ===
output_file = "transcription_en.txt"
with open(output_file, "w", encoding="utf-8") as f:
f.write(result['text'])
# === 結果表示 / Show Result ===
print("✅ Transcription completed! Copy the text below:\n")
print(result['text'])