1. はじめに
お盆休み、みなさんどうお過ごしでしょうか。
多忙な日々の中、よく聞く噂が「AIがコーディングしてくれるのでツールぐらい簡単にできるらしい」と
そこでつい言ってしまうのが――
「AIでツールつくって。簡単なのでいいから」
でも、ここで思い出してほしいのが世間でよく話題になる 「そうめん論争」 です。
「お昼ご飯に“簡単でいいからそうめん作って”」と言ったら、
「そうめんは意外と下準備や手間がかかるんだよ!」と返される、あのやり取りです。
実はAIを使ったツール開発も同じで、「簡単でいいから」と言われても意外と手間や工夫が必要。
暇を持て余したお盆休みに、そんな“そうめん的”なテーマに挑戦してみることにしました。
作ったのは 「AIが自動で会議メモを要約してくれるツール」 です。
利用したAI開発ツールはGithubCopilot Agentです。
一応できあがったものはGitHubに公開しています。
👉 ai_meeting_recorder
2. ポイント(今回解決する課題)
会議の議事録担当って面倒じゃないですか?
話を聞きながらメモを取ると相手の表情が見られないし、あとから文字起こししてまとめるのもつらい…。
AI議事録ツールもいろいろ販売されているけど、サブスクばかりで気軽には使えないなぁ
ということで今回作るツールで解決したいことは次の3点としました
- 会議中にメモを取ると、発言や相手の表情に集中できない
- PCのデバイスから録音できる機能をつける
- リモート会議での自動録音・要約サービスもあるけれど、有料だったり、参加者に「録音中」と出るのが気になる
- リモート会議でも使えるようにする
- 極力費用が掛からないようにしたい
- ローカルで処理できるものは極力ローカルで処理するようにする
こちらを解決するツールを作っていきたいと思います
3. 開発環境
今回の開発環境は以下の通りです。
- エディタ: Visual Studio Code
- 言語: Python
- 実装環境: Python 3.13
-
補助ツール: GitHub Copilot
- 特に GitHub Copilot Agents を活用し、エージェントに指示を出してコードを書かせ、必要に応じて修正するスタイルで開発しました。
Copilot Agentに「○○を実装して」と伝えると雛形コードを出力してくれるので、試行錯誤しながら効率的に開発を進めることができます。
詳しくは下記を参考に
https://aadojo.alterbooth.com/entry/2025/05/20/082725
4. 完成図(ツールの概要)
できることはシンプルです:
- 会議音声を録音
- 音声をテキスト化(Whisper API利用)
- Google AI Studio 経由で Gemini API を利用して要約
- 会議メモとして出力
最終的に「要点がまとまった議事録」が手元に残ります。
プロンプトを自由に変更できるようにしましたので、英語のミーティングの時などはプロンプトに「翻訳して」と入れておけば翻訳もしてくれるはずです
5. 材料(構成要素)
会話音声を録音
会話音声の録音についてはsounddeviceを使って
音声信号を取得し、scipyを使ってWav保存をおこないます。
この辺りはHowToもいろいろありますし、Agentのコードはほとんど修正はいりません。
音声をテキスト化(Whisper OSS版利用)
音声のテキスト化にはOpenAIが公開しているOSSの Whisper を使います。
GeminiやOpenAIの生成モデルは音声ファイルを直接扱えないため、事前に「文字起こし」が必要になります。
ライブラリにWAVファイルを渡すだけで簡単に使えますが、利用には FFmpeg のインストールが必須です。
Gemini API を利用して要約
要約は無料枠のあるGeminiAPIを使います。
こちらもGemini APIライブラリがあるのでそちらを利用します。
Gemini API Keyが必要になりますのでGoogle AI StudioからAPIキーは取得しておく必要があります
参考:https://j-aic.com/techblog/google-ai-studio-api-free
GUI
GUIについてはTkinterで適当につくっています
波形表示にはmatplotlibを一部利用。
ただ、GUIについてはほぼGithubCopilotのAgentにお任せしました
GUI関係の処理についてはほぼAgentで問題ないコードが出来上がります。
6 下ごしらえ(事前準備)
FFmpeg
Whisperを使う際に必要になります。
インストール方法は下記を参考にしてください
https://taziku.co.jp/blog/windows-ffmpeg
リモート会議での対処(ループバック録音について)
昨今オフラインのミーティングよりオンラインのミーティングが多いのではないでしょうか。
その場合、マイクからだけでなくスピーカーやイヤホンからの音も録音したいとなるはずです。
マイクとスピーカーのデバイス設定があるのはこれが理由です。
ただスピーカーの音はそのままでは録音できません。
そのため「ループバック」というものがあります。
ループバックはインターフェースの出力から出る音を入力チャンネルに戻す機能の事です。
Windowsでは標準でこの機能があるのですが、デフォルトではオフになっています。
この設定をオンしておきましょう
これでTeamsやZoomといったリモート会議のツールによらずこのツールが使えるようになるはずです
7 調理(実装)
実装方法についてはソースコードを参照ください
ほとんどGithubCopilot Agentで行っています。
「録音する機能を作って」「文字起こしの機能つけて」「Geminiで要約する機能つけて」といった指示で
機能を実装していってくれます。
ほぼ部品がそろっており、特にGUIの部分はAgentで面倒な部分は自動でコーディングしてくれました。
やったことは動かないところを微修正したり、適切に関数化したりといった程度で
半日ぐらいで動くコードができ、GUIの修正含めて2日程度ででした。
いや、ほんとに簡単にできるようになってる・・・
できあがり(導入方法)
事前の設定を行ったうえで下記を実行
セットアップ
git clone https://github.com/rr28yosizumi/ai_meeting_recorder.git
cd ai_meeting_recorder
pip install .
ツール起動
python -m src.main
まとめ
思った以上に簡単に作れるようになっていました。
今回の開発では GitHub Copilot Agent を使いましたが、ここまでできるとは想像以上でした。
雛形コードやGUIの実装など、多くの部分を自動で生成してくれたおかげで、短期間で形にすることができました。
しかし、Copilot Agentが出力するコードはあくまで「雛形」であり、完璧ではありません。
細かなバグ修正や仕様に合わせた調整、効率的な実装にするためには、やはり開発者自身の 知識や経験 が必要です。
そうめんが「簡単そうに見えて実は手間がかかる」ように、AIツール開発も「簡単そうに見えて意外と奥が深い」ものでした。
結論:AIは強力な補助輪になるが、それを正しく扱い、仕上げるのは人間の技術力次第。
「簡単に作る」というのは、むしろ高度な知識と経験に裏打ちされた仕事だと改めて実感しました。
リポジトリはこちら
👉 ai_meeting_recorder