More than 5 years have passed since last update.

openSMILE3.0がリリースされた

Last updated at 2021-02-22Posted at 2020-12-01

はじめに

この前の記事でSurfboardについて取り上げたが，その時にopenSMILEは少々扱いにくいと説明した．~~あれは嘘だ．~~（当時は嘘ではなかった）
ところが，最近openSMILEがバージョンアップされ，環境に変化があったので，そのことについて整理したいと思う．

openSMILE (open-source Speech and Music Interpretation by Large-space Extraction)とは？

音声，音楽信号から特徴量抽出できるオープンソースツールキット．
主に感情認識の分野で広く用いられている．
以下，公式サイトから引用．

openSMILE (open-source Speech and Music Interpretation by Large-space Extraction) is an open-source toolkit for audio feature extraction and classification of speech and music signals. openSMILE is widely applied in automatic emotion recognition for affective computing. openSMILE is completely free to use for research purposes. For commercial use, check out our devAIce™ Technology.

openSMILE3.0

2020/10/26にversion 2.3から3.0にメジャーアップデートしたと公式ブログから発表があった．
Introducing openSMILE 3.0

主なアップデート内容を公式サイトから引用．

Standalone opensmile-python library

New C API with wrappers for Python and .NET
Modern, revised build process using CMake
Support for the iOS platform
Updated Android integration
FFmpeg audio source component

注目すべき場所は太字で示したPython libraryが導入されたことである．
元々C++で設計されていたが，近年の機械学習分野で広く使用されているPythonの波もあり，今回対応した感じだと思う．
なので，本記事ではこのPython libraryについて簡単に紹介していく．

動作手順

基本的に公式GitHub通りなので，そちらで確認できる人はそれで良い．
GitHub: https://github.com/audeering/opensmile-python

実行環境

OS: Ubuntu 18.04 LTS
CPU: i7-8700K CPU @ 3.70GHz
メモリ: 32GB
Python version: 3.6.9
opensmile version: 1.0.1

1. 必要なライブラリをインストール

pip3 install opensmile

2. 特徴量セット

2020/12/01現在では3つの特徴量セット（表を参照）が用意されている．
表中では5つの名前が存在しているが，version関係もあるので，実質3つである．
また，特徴量は以下の3つの段階から抽出でき，それぞれの数は#featuresで確認できる．

Low-level descriptors (LDD)
LLDs with deltas
Functionals

Name	#features
ComParE_2016	65 / 65 / 6373
GeMAPSv01a	5 / 13 / 62
GeMAPSv01b	62 / 13 / 62
eGeMAPSv01a	10 / 13 / 88
eGeMAPSv01b	10 / 13 / 88

本記事ではeGeMAPSv01bの特徴量セットで動作確認を行う．

3. 実行

早速以下のプログラムを実行すると，データフレーム形式で特徴量が出力されていることがわかる．

import opensmile

smile = opensmile.Smile(
    feature_set=opensmile.FeatureSet.eGeMAPSv01b,
    feature_level=opensmile.FeatureLevel.Functionals,
)
output_features = smile.process_file('audio.wav')
print(output_features)

実行結果

                                                                           F0semitoneFrom27.5Hz_sma3nz_amean  ...  equivalentSoundLevel_dBp
file                                               start  end                                                 ...            
audio.wav                                          0 days 00:00:10.240000                          38.952873  ...                 -29.14987

[1 rows x 88 columns]

もし，csv形式で保存したいなら

output_features.to_csv("audio.csv")

で保存できる．

また，特徴量名を確認したい場合は

print(smile.feature_names)

をすると，以下のように88種類の特徴量名が表示される．

実行結果

['F0semitoneFrom27.5Hz_sma3nz_amean',
 'F0semitoneFrom27.5Hz_sma3nz_stddevNorm',
 'F0semitoneFrom27.5Hz_sma3nz_percentile20.0',
 'F0semitoneFrom27.5Hz_sma3nz_percentile50.0',
 'F0semitoneFrom27.5Hz_sma3nz_percentile80.0',
 'F0semitoneFrom27.5Hz_sma3nz_pctlrange0-2',
 'F0semitoneFrom27.5Hz_sma3nz_meanRisingSlope',
 'F0semitoneFrom27.5Hz_sma3nz_stddevRisingSlope',
 'F0semitoneFrom27.5Hz_sma3nz_meanFallingSlope',
 'F0semitoneFrom27.5Hz_sma3nz_stddevFallingSlope',
 'loudness_sma3_amean',
 'loudness_sma3_stddevNorm',
 'loudness_sma3_percentile20.0',
 'loudness_sma3_percentile50.0',
 'loudness_sma3_percentile80.0',
 'loudness_sma3_pctlrange0-2',
 'loudness_sma3_meanRisingSlope',
 'loudness_sma3_stddevRisingSlope',
 'loudness_sma3_meanFallingSlope',
 'loudness_sma3_stddevFallingSlope',
 'spectralFlux_sma3_amean',
 'spectralFlux_sma3_stddevNorm',
 'mfcc1_sma3_amean',
 'mfcc1_sma3_stddevNorm',
 'mfcc2_sma3_amean',
 'mfcc2_sma3_stddevNorm',
 'mfcc3_sma3_amean',
 'mfcc3_sma3_stddevNorm',
 'mfcc4_sma3_amean',
 'mfcc4_sma3_stddevNorm',
 'jitterLocal_sma3nz_amean',
 'jitterLocal_sma3nz_stddevNorm',
 'shimmerLocaldB_sma3nz_amean',
 'shimmerLocaldB_sma3nz_stddevNorm',
 'HNRdBACF_sma3nz_amean',
 'HNRdBACF_sma3nz_stddevNorm',
 'logRelF0-H1-H2_sma3nz_amean',
 'logRelF0-H1-H2_sma3nz_stddevNorm',
 'logRelF0-H1-A3_sma3nz_amean',
 'logRelF0-H1-A3_sma3nz_stddevNorm',
 'F1frequency_sma3nz_amean',
 'F1frequency_sma3nz_stddevNorm',
 'F1bandwidth_sma3nz_amean',
 'F1bandwidth_sma3nz_stddevNorm',
 'F1amplitudeLogRelF0_sma3nz_amean',
 'F1amplitudeLogRelF0_sma3nz_stddevNorm',
 'F2frequency_sma3nz_amean',
 'F2frequency_sma3nz_stddevNorm',
 'F2bandwidth_sma3nz_amean',
 'F2bandwidth_sma3nz_stddevNorm',
 'F2amplitudeLogRelF0_sma3nz_amean',
 'F2amplitudeLogRelF0_sma3nz_stddevNorm',
 'F3frequency_sma3nz_amean',
 'F3frequency_sma3nz_stddevNorm',
 'F3bandwidth_sma3nz_amean',
 'F3bandwidth_sma3nz_stddevNorm',
 'F3amplitudeLogRelF0_sma3nz_amean',
 'F3amplitudeLogRelF0_sma3nz_stddevNorm',
 'alphaRatioV_sma3nz_amean',
 'alphaRatioV_sma3nz_stddevNorm',
 'hammarbergIndexV_sma3nz_amean',
 'hammarbergIndexV_sma3nz_stddevNorm',
 'slopeV0-500_sma3nz_amean',
 'slopeV0-500_sma3nz_stddevNorm',
 'slopeV500-1500_sma3nz_amean',
 'slopeV500-1500_sma3nz_stddevNorm',
 'spectralFluxV_sma3nz_amean',
 'spectralFluxV_sma3nz_stddevNorm',
 'mfcc1V_sma3nz_amean',
 'mfcc1V_sma3nz_stddevNorm',
 'mfcc2V_sma3nz_amean',
 'mfcc2V_sma3nz_stddevNorm',
 'mfcc3V_sma3nz_amean',
 'mfcc3V_sma3nz_stddevNorm',
 'mfcc4V_sma3nz_amean',
 'mfcc4V_sma3nz_stddevNorm',
 'alphaRatioUV_sma3nz_amean',
 'hammarbergIndexUV_sma3nz_amean',
 'slopeUV0-500_sma3nz_amean',
 'slopeUV500-1500_sma3nz_amean',
 'spectralFluxUV_sma3nz_amean',
 'loudnessPeaksPerSec',
 'VoicedSegmentsPerSec',
 'MeanVoicedSegmentLengthSec',
 'StddevVoicedSegmentLengthSec',
 'MeanUnvoicedSegmentLength',
 'StddevUnvoicedSegmentLength',
 'equivalentSoundLevel_dBp']

本来であれば，ここでそれぞれの特徴量についての説明があれば良いが，数が多すぎるので論文を参照してほしい．
The Geneva Minimalistic Acoustic ParameterSet (GeMAPS) for Voice Research andAffective Computing

また，用語の使い方は従来のopenSMILEと恐らく同様であるので，こちらの論文も参考になると思う．
音声に含まれる感情を考慮した自然言語対話システム

smaについてはこちらを参照（リンク先で「sma」と検索）
https://audeering.github.io/opensmile/get-started.html#extracting-your-first-features

まとめ

音声特徴量抽出ツールキットopenSMILE3.0について紹介した．
Python libraryが用意されているので，以前に比べて使いやすくなった．
しかし，まだアップデートしたばかりなので機能は少なめ．
より知りたい人はDocumentのUsageを進めると良いと思う．

参考サイト

The Munich Open-Source Large-Scale Multimedia Feature Extractor
Appendix openSMILE Standardised Feature Sets
Desktopアプリケーション開発の技術情報 IS09_emotion

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up