AIモデルの学習にはデータが必要です。
例えば、時系列データを学習に用いるモデルを作る場合、多量の時系列データを用意しますが、得てして一部に欠損があったり、標準化する必要があったりと前処理と呼ばれる加工が必要になります。
また、データの可視化のためグラフにすることも多々あります。
そうした時に、少量をサンプルとして抽出し、エクセル使って加工したり、PythonのPandasを使ったりしていたのですが、元データと加工後データの紐付けをフォルダ構成でなんとかしたりとか、何かと本筋とは別のところで気を使う日々を過ごしていました。
ちょっとそういう状態はどうにかならないかなということで、世にあるツールを探してみたところ、2つ気になるツールがあったのでメモです。
※後日、使ってみた感想を追記していきます。
-
OpenRefine
- スタンドアローンのオープンソースのデスクトップアプリケーション
- 参考
-
Orange
- オープンソースのデータ視覚化、機械学習、データマイニング用ツールキット
- 参考