機械学習
MachineLearning
Dataset

時系列データセットの話

前書き

ひょんなことで、昨年度より機械学習の勉強を行っております。
題材としては機械学習を使って時系列解析を行なっていました。
”俺が考えた最強のネットワーク”を作ったりするのですが、如何せんデータもろくにない中で何かしら上手くいってます感を出すために色々四苦八苦しました。
仕方ないのでネットでオープンデータを探しておりますと、非常にまとまったサイトがありましたので紹介したく。

データセット

時系列解析で非常に著名な方が作成しているサイトのようです。
(すみません、私はこう言った情報に疎く存じ上げませんでした汗)

UEA & UCR Time Series Classification Repository

リンク先のDatasetsタブより各データセットの詳細を見ることができます。
クラス毎の傾向を図示してくれているので、ぼんやりと似ているデータを集めやすかったりしました。

使った所感

  • 1系列のデータである
    • センサ1,2,3,・・・のデータをまとめて入力するような状況では工夫が必要
      • 温度と湿度の推移から明日の天気を予測するんだ!っというような状況では注意が必要です
  • ベストアルゴリズムを示してくれている
    • 各データセットの下の方に良い精度を出力しているアルゴリズムを書いてくれている
    • アルゴリズム開発のヒントになったり何かと嬉しいです
  • 取捨選択は必要
    • データが多種多様なので、本来の問題に見合ったデータを探す必要があります
      • 例えば機械振動のようなデータはなかったと思います(見逃していたらすみません汗)
      • 実データばかりではありません
    • 学習データが少ない場合あり
    • 総じてデータ特性・素性などの分析は必要(当たり前の話なのでしょうけども汗)

おわりに

評価データがなく困っている方などの助けになれば幸いです。
本データセットを使った機械学習の論文等もあり個人的には非常にためになりました。

お目汚し失礼いたしました。