More than 5 years have passed since last update.

7日目: Generating Synthetic Time Series to Augment Sparse Datasets

Last updated at 2019-03-23Posted at 2019-03-19

Generating Synthetic Time Series to Augment Sparse Datasets 要約

読んだ論文

Generating Synthetic Time Series to Augment Sparse Datasets
Germain Forestier, François Petitjean, Hoang Anh Dau, Geoffrey I. Webb, Eamonn Keogh
https://germain-forestier.info/publis/icdm2017.pdf
https://ieeexplore.ieee.org/document/8215569/authors#authors
上記の論文を読んだので簡単にまとめます． 2017 IEEE International Conference on Data Mining (ICDM)で発表されているようです．PDFは筆頭著者さんの個人サイトで公開されていました．昨日読んだ論文Data augmentation using synthetic data for time series classification with deep residual networksの第二著者の人ですね．

3行でまとめる

時系列分類問題におけるデータ拡張手法を提案する．昨日読んだやつの先行研究の様子．
おなじみUCR公開データセットで評価して有用性を示した．

前提知識

DTW (Dynamic Time Wrapping)

DTWは2つの時系列の類似度を示す指標である．
例えば，シンプルにMSEなどを考えると同じ長さの時系列でないといけなかったり，位相のズレに弱かったり，周波数のズレに弱かったりと時系列にマッチしていない．なので各時系列の各要素すべての組み合わせで距離を算出し，各要素対の最短となるパスを考えることで時系列間の類似度とするのがDTWな様子．
こちらのブログの説明と可視化がとてもわかり易いのでおすすめ．

DBA (DTW Barycenter Averaging)

DBAは複数の時系列データから平均的な時系列データを算出する方法である．
DTWの過程で算出した距離マトリックスを利用して時系列の平均を算出する．
とある時系列を初期値として選択し，その他の時系列とのDTWを算出する．
DTW算出過程で得られる要素間の対応を元に，各要素が重心となるように更新する．
上記を収束するまで繰り返す．
こちらのブログの説明がわかりやすかったです．

上記の前提知識を踏まえて本論文の提案手法を確認しましよう．

提案手法

重み付け

長さが異なる時系列データセット$D={T_1, T_2, ... T_N}$を考える．
$D$の中からとあるクラス$C1$に属する時系列サブセット$S_{C1}$を取り出し重み付け平均$\bar{T}$を算出する．
$\bar{T}$を生成データとして$D$に追加する．

※データの多様体を表現できるように重みを算出することが本稿の貢献らしい．

ここで$\bar{T}$は以下の式で与えられる．
$argmin \bar{T} \in E \sum_{i=1}^{N}DTW^2(\bar{T}, T_i)$
※個人的にこれは$\bar{T} = argmin_{\bar{T}}( E \sum_{i=1}^{N}DTW^2(\bar{T}, T_i))$という意味じゃないかなと思っているんですがいかがでしょうか．．．
即ち，与えられた時系列データセットそれぞれに対してDTWの二乗和が最小となるような$\bar{T}$を求める．ただ，これを探索的に最適化しなければいけないので，本論文では$\bar{T}$の算出にDBAを使用する．
今回は重み付きでこれを算出するため，上式の各DTWに$T_i$に対応する重み$w_i$を掛け合わせる．

重み決定方法

Average All (AA)：　全ての入力時系列を用いて重み付け平均を求める方法．ただし多様性を生み出すために全ての時系列に異なる重みを割り当てる．
Average Selected (AS)：　一部の近い入力時系列を用いて重み付け平均を求める方法．最初にランダムに一つ時系列を選択し0.5の重みを与え，その近傍5つから2つをランダムに選択し0.15の重みを割り当てる（あれ，この手法昨日読んだ論文と同じだぞ）．残った0.2の重みを残った時系列で分配する．
Average Selected with Distance (ASD)：　ASをベースに，近傍を選択した際に距離を考慮した手法．

まとめ

時系列データの拡充手法として，Weighted DBAを提案した．
（昨日の論文は本稿の発展として，ResNetとアンサンブルResNetを使って評価した点が新規性だったのかもしれない．）

所管

本日はなんだかんだ2時間くらいかかってしまいました．しっかり理解しようとするとどうしても止まってしまいますが，本論文の一段落を読み込んで止まっているよりは，さっさと次を読んだり，むしろ周辺知識や関連研究を軽く流したりしてから再読したほうが理解が進見ます．ちなみに本稿の更に第二著者の方がDBAの発案者なようですね．

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up