3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

numpy/pandasで同じ値を連続ある程度連続した箇所を取り除く

Posted at

目的

なにやら適当な時系列データなどを収集して保管するとする。
集め方によっては一定の区間同じ値を出し続けることがあるが,その間の分を記録しているのは容量を圧迫する。

例えば以下の図のように0が長く続く区間が複数あり,これを除去したいとする。

  • 0がN以上連続したデータを取り除く
  • 0が異常に長く続くのを除去したいのであって0そのものは残っていてもよい。

image.png

実装

  1. まず,上のdataのうち,0でない箇所のindexを抽出する。
  2. index番号の間隔をdiffを用いて計算。
  3. 間隔がN以上になるindexを抽出。
  4. 抜き出すべきindexをarrangeで作成。
  5. Pandasのdfからdropで指定して一気に落とす。

以下のコードはサイズ調整が少し入っている。

valididx = np.where((data>1e-5) | (data<-1e-5)) # Non zero only count rigid zeros
spaceidx=np.diff(valididx,prepend=0)
delidx=np.where(spaceidx>600) # Assume N = 600
delidxs = []
for deli in delidx[1]:
    delidxs.extend(np.arange(valididx[0][deli-1],valididx[0][deli]))
droppedbuff = df.drop(delidxs,axis=0)

余分なデータを落とすと以下のようにスッキリ見える。

image.png

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?