More than 3 years have passed since last update.

pythonで音声処理

Last updated at 2021-01-16Posted at 2018-05-10

動画中の音声を編集するために音声を結合したり音量を調整したりする必要があったので、その時調べたことをまとめておきます。

python3.6 + pydub (+ffmpeg)を使っています。

動画から音声を抜き出す

これはffmpegを使いました。
pythonからffmpegを呼び出します。


import os, sys
import subprocess

cmd = "ffmpeg -y -i {} -ab {}k -ac {} {}".format(input_file, bitrate, channnel, output_file)
resp = subprocess.check_output(cmd, shell=True)

pydubを使う

ここからpydubを使って音声ファイルを編集します。
インストールは

$ pip install pydub

で入るから楽！

ただしffmpegが必要なので注意！

音声を読み込む


import pydub
from pydub import AudioSegment

base_sound = AudioSegment.from_file(input.mp3, format="mp3")  # 音声を読み込み
length_seconds = base_sound.duration_seconds  # 長さを確認
base_sound.export("./result.mp3", format="mp3")  # 保存する

１部分を切り出す


first_five_second = base_sound[:5*1000]
last_ten_second = base_sound[10*1000:]

音を結合する

concated_sound = first_five_second + last_ten_second  # 元の音声の最初と最後を結合

効果音をつける（音声を重ねる）


effect_sound = AudioSegment.from_file(effect.mp3, format="mp3")  # 効果音を読み込み
start_time_ms = 5 * 1000  # 効果音を５秒時点から鳴らす
result_sound = base_sound.overlay(effect_sound, start_time_ms)  # ベースの音声に効果音をつける

音量を変える


loud_sound = base_sound + 6  # 音量を6dbだけ上げる
quiet_sound = base_sound - 10  # 音量を10db下げる

でも、普通「音量を４デシベル上げたい」ってよりは「音量を1.5倍にしたい」って感じじゃないでしょうか？（音声処理を専門でやっている方々は違うかもしれませんが...）

本当にこれでいいのかどうか自信がないので、詳しい方がいらっしゃいましたら教えていただけると嬉しいです。


from pydub.utils import db_to_float, ratio_to_db
ratio = 0.8  # 0.8倍の音量にしたい
quiet_sound = base_sound + ratio_to_db(ratio)

これで本当にあっているのかどうか確かめるために、音量を確かめてみました。
でも、音量関係の指標もいくつかあって、


base_sound.rms
base_sound.dBFS
base_sound.max

の３つを見つけました。
うーん、どれを参考にすればいいんだろ...

この辺りの話は全く知らなかったので調べてみたら、rmsは

ソース：http://sleepfreaks-dtm.com/dtm-mix-technique/level-metering/

簡単に言ってしまえば、平均的な信号レベルの大きさを表す指標ということになります。
実効値とも呼ばれ、単位は”dB”です。
音圧の大きさの指標として用いられることが多いように思います。

らしい。

そしてrmsってなんの略かと思ったら、機械学習をやっている人ならおなじみのRootMeanSquareの略でした！

ってことは、サウンド全体の平均的な音量を調節するにはこれを使えば良さそう！

自分が持ってる音楽で以下を試しました。


delta = ratio_to_db(0.8)  # 音量を0.8倍にしたい
sound_quiet = sound_base + delta  # 音量を調節
result_ratio = sound_quiet.rms / sound_base.rms
print(resul_tratio)  # 0.7998836532867947が返ってきた

元のサウンドと比べてrms値がほぼ0.8倍になっているので、問題なしとします。

sound.maxの値を使って調整するやり方も考えられましたが、返り値の単位がよくわからないので却下。

最後に

pydubのソースコードをみてみたら、audioopというモジュールを使ったりして操作しているようです。
https://docs.python.jp/3/library/audioop.html

このあたりは時間があったら調べたい。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up