Transfer learning for time series classification 要約
読んだ論文
Transfer learning for time series classification
Hassan Ismail Fawaz, Germain Forestier, Jonathan Weber, Lhassane Idoumghar, Pierre-Alain Muller
https://arxiv.org/abs/1811.01533
上記の論文を読んだので簡単にまとめます.IEEE International Conference on Big Data 2018にて発表されていました(BigD445).
3行でまとめる
- 転移学習が画像系で流行ってていい感じだけど,時系列分類界隈では徹底的な検証がされていない.
- これを検証するために,85のデータセットを用い,7140のモデルを訓練した.
- DTWアルゴリズムを用いて,ソースドメイン(転移元)とターゲットドメイン(転移先)の類似度を図り,適切なソースドメインを提供する手法を開発した.
提案手法
使用モデル
今回使用したモデルはFig.3の通り,1次元の時系列データに対して,1dConvを3層,fully-connectedを挟んでクラスを予測するシンプルな構造となっている.本稿は転移学習の有効性を検証するものであり,モデル構造にとらわれない手法を提案するものであるため,あえてシンプルなモデルを採用しているとのこと.
転移学習(というかFine-tuning)
- 上記ネットワークを各ドメインで訓練する(本稿では85データセットを用いて85個訓練した).
- ただし,出力内容が異なる(回帰or分類(クラス数も違う))ということで,fully-connected層以降はドメインごとに可変とした.
- 転移させる際には,ソースドメインで訓練したモデルから,fully-connected層以降を削除して,ターゲットドメイン用に新たに接続して全体を再学習する(Fine-tuning).
ここで,Global Average Poolingを用いる利点として,可変長の時系列入力が与えられたとしても,ここで固定長にできるという記述があった.そもそもGlobal Average Poolingとはなんぞや?と調べてみると,どうやらチャネルごとに平均を取るPoolingとのこと.即ち,時系列長にかかわらずチャネル長の1次元ベクトルにできるということかと.ただ,この記述はドメインごとに異なる入力長でも良いという話なのか,同じドメイン内でも異なる入力長を許容するという意味合いなのかよくわからなかった(そもそも後者のような可変長のモデルは実装できるのか?).
データセット間の類似度推定
- 各データセットの入力をクラス毎に1つとなるように減らす(または,プロトタイプとする).
- プロトタイプは,各クラスの時系列を平均することで生成する(DTW Barycenter Averaging(DBA)法1).
- $D_a$と$D_b$において,それぞれのクラス$\{C_{a1}, C_{a2}, ...\}, \{C_{b1}, C_{b2}, ...\}$の全パターンでDTWを算出する.(結局DTWってなんなんだ...?)
- 3で算出したDTWの最小値を$D_a$と$D_b$の距離とする.
まとめ
- 時系列データの転移学習において,適切なソースドメインを選択する手法としてDTWを用いた手法を提案した.
- DTWやDBAって結局何なんだというところが,注釈論文を読まなければならなそうなので,またいつか.
所管
論文の選定を含め2時間たったので評価部分については割愛しました.もう少し高速に読んでいかないとやっぱり続かない気がします...ちなみにこの論文,評価実験に60GPU(GTX 1080Ti, Tesla K20, K40, K80のMix)のクラスタで168日かかったらしい.エグい.(と思ったら,1GPUだと168日かかるところ,クラスタのおかげで1週間くらいで済んだらしい.どちらにせよクラスタがエグい.)ざっと読んだところ結果も面白そうなんだけど,まとめるのがつらいので今回はおしまい.
-
F. Petitjean and P. Ganc¸arski, “Summarizing a set of time series by averaging: From steiner sequence to compact multiple alignment,” Theoretical Computer Science, vol. 414, no. 1, pp. 76 – 91, 2012. ↩