今回は、動画編集作業の効率化を目指して開発中の「mp4_to_edl_srt」というツールについて紹介します。
ツールの目的
このツールは、以下の機能を提供することを目指しています:
- MP4動画ファイルから音声を抽出し、文字起こしを行う
- 編集作業用のEDL(Edit Decision List)ファイルを生成する
- 字幕用のSRTファイルを生成する
現在の開発状況
実装済みの基本機能
- FFmpegを使用したMP4からの音声抽出
- Whisper AIによる基本的な文字起こし
- 単純なEDL/SRTファイルの生成
- 基本的なGUIインターフェース(ファイル選択、実行ボタン)
設定とカスタマイズ
現在、config.jsonで以下の基本設定が可能です:
{
"input_path": "入力ファイルのパス",
"output_path": "出力先のパス",
"scene_duration": "シーンの長さ(秒)"
}
※ 将来的にWhisperのモデル選択や言語設定、音声処理オプションなどの詳細設定にも対応予定ですが、現時点では実装されていません。
既知の問題点
-
音声抽出に関する問題
- 一部のMP4ファイルで音声ストリームの検出に失敗することがある
- 音声品質によって文字起こしの精度が大きく変動する
-
EDL/SRT生成の課題
- タイムコードが正確に同期しないケースがある
- 長時間の動画処理時にメモリ使用量が増大する
-
GUI関連
- プログレスバーの更新が不安定
- 処理中のキャンセル機能が未実装
使用方法
基本的な使い方
- リポジトリをクローン
- 必要なパッケージをインストール
pip install -r requirements.txt
- run_gui.bat(Windows)またはrun_gui.sh(Mac/Linux)を実行
必要な環境
- Python 3.8以降
- FFmpeg(システムにインストール済みであること)
- 最低4GB以上のメモリ
今後の開発予定
-
設定のカスタマイズ機能の拡充
- Whisperモデルの選択機能
- 言語設定オプション
- 音声処理パラメータの調整機能
-
既知の問題への対応
- 音声抽出処理の安定化
- メモリ使用量の最適化
- GUIの機能改善
フィードバックのお願い
このツールは開発途中であり、多くの改善の余地があります。以下のような情報をいただけると助かります:
- バグや動作の問題点
- 必要な機能やオプション
- 使用時の気づき
リポジトリ
GitHubリポジトリ:mp4_to_edl_srt
※ 現在はアルファ版として公開しています。本番環境での使用は自己責任でお願いします。
最後に
このツールは、動画編集作業の効率化を目指して開発を進めています。まだ多くの課題が残っていますが、徐々に改善を重ねていく予定です。フィードバックやプルリクエストをお待ちしています。