🔰おかんの精一杯★WhisperXで音声データから議事録作成に挑戦してみた

Last updated at 2025-08-30Posted at 2025-08-24

議事録作成・・・それは心の折れる作業。
会議は準備も大変だが、終わった後の議事録作成も大変だ。

なんとかしたい議事録作成

会議の音声データからテキスト化できるアプリはいろいろある。ZOOMでもやってくれるし、ZOOMの要約機能はなかなか秀逸である。要約はだ。私の欲しいのは発言者ごとのテキストだ。書き起こしテキストは、オンライン会議でないと曲者で、音声データを聞くとなんでそうなった！と言いたくなるような人前に出せない変換がされていること多々。結果人力の耳頼り、力技入力になっている。
見出しのなんとかしたい議事録作成なのだ。

🔰おかんの精一杯がこれです

●用意した音声データ

おかん「こんにちは。今何歳ですか？」
通行人A「18歳です」
おかん「大学生ですか？」
通行人A「はい。宇宙について学んでいます」
おかん「それは面白いですね」

テキスト化して話者分離させたスクリプト

📄 スクリプト全文（クリックで展開）

import os
import whisperx
from whisperx.diarize import DiarizationPipeline
import torch
from datetime import datetime

# 設定
audio_file = "audio.wav"
if not os.path.exists(audio_file):
    raise FileNotFoundError(f"指定された音声ファイルが存在しません: {audio_file}")
device = "cuda" if torch.cuda.is_available() else "cpu"
auth_token = "hf_******"  # 👈Hugging Faceのアクセストークン

# ① 音声認識モデルのロードと文字起こし
model = whisperx.load_model("base", device=device, compute_type="int8")
transcription = model.transcribe(audio_file)

# ② アラインメント（音声と単語のタイミングを合わせる）
model_a, metadata = whisperx.load_align_model(language_code="ja", device=device)

aligned_result = whisperx.align(
    transcription["segments"],
    model_a,
    metadata,
    audio_file,
    device
)

# ③ 話者分離
diarize_model = DiarizationPipeline(use_auth_token=auth_token, device=device)
diarization_result = diarize_model(audio_file)

# ④ 話者情報を文字起こしに統合
if not aligned_result.get("word_segments"):
    raise ValueError("アラインメント結果が空です。言語コードや音声品質を確認してください。")

final_result = whisperx.assign_word_speakers(
    diarization_result,
    aligned_result,
    audio_file
)

from datetime import datetime
import os

# 出力先ディレクトリ
output_dir = "C:/meeting/output"　#出力先をのフォルダパスを入力
os.makedirs(output_dir, exist_ok=True)

# ファイル名ベース
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
base_name = os.path.splitext(os.path.basename(audio_file))[0]

from collections import defaultdict

speaker_segments = defaultdict(list)
for segment in final_result["segments"]:
    speaker = segment.get("speaker", "Unknown")
    start = segment.get("start", 0.0)
    end = segment.get("end", 0.0)
    text = segment.get("text", "")
    speaker_segments[speaker].append((start, end, text))

# Markdown形式のファイル出力
markdown_path = os.path.join(output_dir, f"{base_name}_{timestamp}.md")
with open(markdown_path, "w", encoding="utf-8") as f:
    for speaker, segments in speaker_segments.items():
        f.write(f"## 🗣️ {speaker}\n\n")
        for start, end, text in segments:
            f.write(f"- **{start:.2f} - {end:.2f}**  \n  {text}\n\n")
        f.write("---\n\n")

# プレーンテキスト形式のファイル出力
plain_path = os.path.join(output_dir, f"{base_name}_{timestamp}_plain.txt")
with open(plain_path, "w", encoding="utf-8") as f:
    for segment in final_result["segments"]:
        speaker = segment.get("speaker", "Unknown")
        start = segment.get("start", 0.0)
        end = segment.get("end", 0.0)
        text = segment.get("text", "")
        f.write(f"{start:.2f} - {end:.2f} | {speaker}: {text}\n")

出来上がったmarkdownファイルがこちら
🗣️ SPEAKER_01

0.84 - 13.87
こんにちは、今何歳ですか?18歳です。大学生ですか?はい、宇宙について学んでます。それは面白いですね。

話者分離が全くできていない・・・
音声データが短いというのも原因かもしれないが。ただ、テキスト化は完ぺきだった。

ここまで行きつくおかんの死闘をぜひご覧ください🔥🔥🔥

AIだったらなんとかしてくれる？

ChatGPTに聞けば解決してくるんじゃない？
今の時代AIでしょ。だってAIはみんなのアシスタントでチームの一員だって何かに書いてあったし（好きな表現ではある）

AIに聞く前に私のスペック

エクセルは、記録マクロとAIでなんとか希望通りのことができる。以上だ。その辺のスーパーで買い物しているお母さんと一緒だ。
果たしてできるのか？議事録作成

ChatGPTに言われるがまま始まった知らない世界の幕開け

ChatGPTに最初に聞いたこと

ChatGPTからは下記の方法を提案された。

議事録のためクラウドではなくローカルで完了させたいことだけは強く希望してChatGPTに再伺い。

提案されたWhisper + pyannote.audioの組み合わせが希望と合致した。
Whisperの特徴は、ローカルで使えること。クラウド使用しないとなると一択と言ってもよい。OpenAIが作った文字起こしAIツールだ。
初めて聞く言葉。そして、この後怒涛の初めて祭りが開催されることになる。

わからな過ぎてAIの言いなり

Whisperとpyannote.audio（読み方すら不明）をインストール。
これらはコマンド上で動くらしい。コマンドの開き方？知らん
でもやらないと。

言われるがままの環境構築

● WhisperX：音声データテキスト化するため
※後にWhisperからWhisperXに変えることになる
● pyannote.audio：話者分離するため
● Hugging Faceのトークン取得：pyannote動かすため
● Python3.10.7：パソコンに命令するための言葉（ver3.10以上にすると問題発生）
● ffmpeg：動画や音声の変換・編集・抽出・圧縮ツール
● torch：AIの脳みそを作って動かすための道具箱（だそうです）
● GIT：ファイルの変更履歴を管理するためのツール
他にも、途中で言われるがままインストールしたりアップバージョンやダウンバージョンしている
インストール以外でも仮想環境の構築
ここまでで、聞いたことあるのPythonのみ

Pythonのスクリプト作成（だからなんの事だよ）

１．フォルダの作成
フォルダは、Cドライブ直下がおすすめ。フォルダ名（パス内）に日本語が入らないのが良い。このフォルダ内に必要なファイルすべて投稿する
C:\meeting　こんな感じ。

２．作成フォルダでコマンド開いて仮想環境をつくる

🔰 超初心者のために仮想環境のつくり方（クリックで展開）

①C直下に作成したフォルダの、バーに「cmd」と入力

②コマンド画面が開く（黒いのです）
③開いた画面に下記入力する

python -m venv .venv　#最後のvenvはわかりやすい言葉でOK

そうすると、仮想環境が作れる。この環境に必要なものをインストールする。この中でしか使えない。

３．仮想環境ができたらどんどんインストールする
・Python3.10 公式でダウンロード
　　👉 Python 3.10 Downloads
・ffmpeg

choco install ffmpeg

・Whisperx

pip install git+https://github.com/m-bain/whisperx.git

・pyannote.audio

pip install pyannote.audio

他にもインストールが必要になると思いますが、エラーが出たらAIに確認して言われるがままインストール（私は）また、バージョンも影響があるのでエラーのたびに変更しました

次の難関Hugging Face登録してトークン取得

このアクセストークンを取得しないとpyannoteが使えない。
Hugging Face

🔰アクセストークン取得へのみちのり（クリックで開きます）

①まずサインアップ。アカウント名と名前とemailで登録できる。そうするとアクセストークンが手に入るのだが、これで安心できない。これだけではアクセストークンが使えない。落とし穴がある。

②届いたメールのリンクをクリック

③モデル規約はAgree and accessボタン全部押すこと何も考えず同意する。ただし、会社名やHPを登録しろと言ってくる。
この画面

Company：NONE
Website：適当なものでOK。Qiitaの自分のページでもよい
使用目的：I plan to use this model for private use
これをやって初めてトークンが本当にアクセスしてくれるようになる

ここまで準備して、やっとPythonのスクリプトが作成できる。
この準備だけで、ChatGPTには課金しない奴には教えないと言われ、盟友Copilotにイチから状況説明する。そして、違うことを言われるAIあるあるってわかっているが・・・ツライ

Pythonのスクリプトを紐解く

🔰AIとの壁打ちと言うが、正直”千本ノック”だった

構築の流れ

１．音声データ認識（WhisperX）
２・話者分離
３．話者統合
４．ファイル作成して保存
ざっくりこんなかんじだ。
まずは、音声データをテキスト化するスクリプトを作成

import whisper

# モデルロード
model = whisper.load_model("base")

# 音声ファイルを文字起こし
result = model.transcribe(r"C:\meeting\gijirokutest.mp3")

# テキストをファイルに保存
with open(r"C:\meeting\gijiroku.txt", "w", encoding="utf-8") as f:
    f.write(result["text"])

print("文字起こしを保存しました。")

ここに話者分離のためのスクリプトを足していった。
しかし、話者分離どころかエラーの嵐。ソフトが足りないからインストールしろ、バージョンが合わないからアップバージョンしろ、こっちはダウンバージョンだ！
やっとどうにかなりそうだ！と思ったところにとんでもないエラーが。
クライアントは要求された特権を保有していません。
Copilotは「Windowsの「symlink（シンボリックリンク）」権限エラーですね。WinError 1314 は「要求された特権を保有していません」という意味で、GitやHugging Faceのモデル取得時に os.symlink() を使おうとして失敗しています。」と簡単に言ってくる。
調べると、PowerShellから管理者となって実行のような更なる闇に放り込まれ、もう一度整理して違う方法を探すようCopilotにお伺いを立てる。

今までは、Whisper + pyannote.audio　での構築を試みていた。どうやらpyannote.audioが権限要求するようだ。代案として、精度は落ちるがWhisperXを使用しての構築に変更。
WhisperXをインストールしたら、Python3.10じゃないと動かないことが発覚。ここでもダウンバージョンして新しい仮想環境を開いて心機一転（全然ポジティブじゃないけどなっ）
このようなやり取りを千本ノック状態でして、スクリプトはファイル的にはver.7だが、実際には20回以上修正している。
最終形が冒頭のスクリプトだ。

python C:\meeting\transcribe7.py

Pythonへのこの命令を何十回したかわからない・・・

最後に余裕が出た？工夫をしてみた

結果、話者分離はうまくいかなかった。サンプル音源が13秒と短いこともあり、Qiitaのほかの方の記事を参考に、そこで公開されている音源を使って試してみた。
参考記事

音源
https://drive.google.com/file/d/1zKWIVHn9eqcjkPFKa_wvyRtGfYBygoeW/view

この音源を使った結果（クリックで開きます）

🗣️ SPEAKER_00

0.60 - 26.29
さて早くに総業再開された甘が先の工場なんですけれどもそのこの防災対策ということではどのようなことを進められたんでしょうか具体的な対策としてまず工場内の自信対策を強化しました機械をアンカーボルトで固定したりたなやキャビネットの点頭防止鼻に浮いてある事業工具の打破防止を取ってさせました
26.93 - 54.09
車内には水と食料、防災用品を効くし、社員の安倍確認のための連絡体制も整えました。また、アマガファクシー、消防局のオービー職員を防災担当コモンに思わなきし、車内の防災教育や防災マニアルの作成なども進めました。なるほど。まさにソフトメン、ハードメン、両方でいろんな対策を進められたということですよね。
54.60 - 82.17
そして、毎年春と秋には、社前の暴災訓練を行っています。特に、秋の訓練は全社上げての大規模なもので、警察や消防署の参加のもと、橋越社による避難訓練なども実施していたします。当社は普段から消防署との訓練ケーションを見つにとってより、所活の北消防署から交渉をまできしての休命交渉や訓練も実施しております。

🗣️ SPEAKER_01

82.79 - 112.35
昨年7月には私自身も実際にできるだろうか少し不安がありましたのでエイリーの使い方や心配させますらじの公主を受けましたそうですか素晴らしい取り組みですね私もエイリーの使い方1回だけ公主を受けたんですけどやっぱり1回やったことあるのとないのでは全然違いますよねぜひまたね多くの方に事故していただきたいなと思う街の方にねお問いを教えていただいたら消防書の方ですぐに受け付けいたしますのでよろしくお願いします

うまくいっている風だが、女性と男性が話していて、ちゃんと話者が分かれていない。SPEAKER_00、_01と分かれているので2名いるだけでも成長か。

汎用性考えるとどうかな？

出来上がりファイルは、audio.txtというファイルがoutputフォルダに作成された。次のファイルをテキスト化すると、ファイル名が一緒のため上書き保存されてしまう。
解決策　ファイル名にタイムスタンプ追加しよう
ファイル名にタイムスタンプを追加することによって、上書きの回避といつのデータかわかるようになった。
ただのテキストファイルと、Markdown形式のファイルと同時に作成できるようにプロンプトを改良した。

もう一つ、投稿する音声データのファイル名がどんなものでも認識するようにしたかったのだが、かなりハードルが上がってしまい断念。現状はaudio.wavファイルと指定している。
ちなみに、mp3からのwavへの変換はこちら（ffmpegが入っている前提です）

ffmpeg -i input.mp3 output.wav

戦い終わって

まだ検討の余地ありだ。自分の技術向上ももちろんだが、世の中の技術進歩の方が私より早いのは間違いないので期待だ
●業務効率化
実際の会議データを使って試してみたいと思う。音声のテキスト化は、ZOOMよりも精度が良いのではないかと思っている。音声のテキスト化だけと考えたら、使えるのではないかと思う。話者分離は結果目標の２割といったところだが。
実際の２時間にわたる会議音源の解析となるとうまくいくか、またどのくらいの時間がかかるか気がかりではある。2時間くらいかかる可能性はあると思う。データを分割して、解析中に終わったデータから精査するということも可能かもしれない。
●汎用化に向けて
無料のシステムしか使用していないので、誰にでも使用可能だと思う。システムインストールして、Pythonスクリプトを走らせれば使用できるので、ほかの方にも試してほしいと思う
●自分DX推進
今回はこれが一番のような気がする。AIが提示してくるスクリプトの上に書いてある「bush」と「Python」の意味も分かっていなかった。千本ノックしているうちに、Copilotが提示してくるスクリプトを見て、これは変ではないか？こうしたらもっとよくなるんじゃないの？と指摘＆提案ができるようになった。まさに二人三脚ですすめた。
Copilotは、さらにこうしたら？を進めてくるがそれはいらないと断っている。LINEbot化とか。なんでやねん！と思っている。
●AIはアシスタントでありチームの一員
Copilotとこんなに密な時間をもったのは初めてだ。言いなりになっていると、違う方向へ連れていかれてしまう。やはりゴールにむけての軌道修正は人間だなと思った。私が思うほど私の気持ちを分かってはいないなと（当たり前だが）それでも頼りになる仲間であることは間違いないと思う。

参考サイト

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up