論文概要
この論文では、日本の鳥類66種を同時に識別できる鳴き声判定システムが紹介されています。これまでの国内研究は、対象種が少なかったため、それを拡張することを目的としています。
モデルの構成
データの前処理
・音声データにおいて、複数種が鳴いている区間は除外します
・音圧が50msで、+2db以上上昇した区間を鳴き声イベントとして抽出します
・STFTで200〜12000Hzの1秒スペクトラグラムを生成し、1チャンネルの画像をRGBで分解して3チャンネルにします
・クラス不均衡対策として、100枚しかない種は除外し、1000枚以上のクラスはランダムにダウンサンプリングします
モデルの構築・学習
・AST(Audio Spectrogram Transformer)を使用。Transformerベースで、ImageNet+AudioSet事前学習済み重みを使用。
・ハイパーパラメータ
損失関数:BCEWithLogitsLoss
最適化手法:Adam
初期学習率:1×10^-5
学習スケジューラ:CosineAnnealingLR(最小1×10^-6,周期32epoch)
学習エポック数:32
・PyTorch1.8.1(Ubunts18.04,CUDA 11.1,NVIDIA TITAN RTX 24 GB)
評価
・グループ層化5分割交差検証
Accuracy 0.800,F1 0.782
使われている技術
時系列→画像変換
短時間フーリエ変換(STFT)によるスペクトラグラム化
深層学習アーキテクチャ
Audio Spectrogram Transformerを使用
転移学習
ImageNet+AudioSet事前学習済みモデルを使用
最適化テクニック
Adam+CosineAnnearingLR,BCEWithLogitsLoss
データセット整形
クラス不均衡対策(ダウンサンプリング,クラス統合)
参考文献