More than 5 years have passed since last update.

R のdata.frame/data.table のsortベンチマーク

Last updated at 2017-03-03Posted at 2017-03-03

まだまだ処理のボトルネックがあるようです。無思慮にも数百件のデータテーブルのsortを数万件している箇所があるのですが、外すわけにもいかず、これもどの方法が最速なのか調べないとなりません。ついでにやっておきます。

データ構造による違い

普通にデータフレームでソートします。

a <- df[order(df$v),]

データテーブルのソートを標準ソート関数で行います。

a <- dt[base:::order(v),]

データテーブルのソートをdata.tableのソート関数で行います。

a <- dt[order(v),]

データテーブルのソートをreferenceを利用した、高速なsetorder関数で行います。

a <- setorder(dt, v)

100万から1000万件のソートを１回ずつ行いました。
標準のソートはdata.tableのそれに比べて１０倍も遅いので使わない方が良いです。

keyを設定する効果は大いにあるといえます。
reference を用いたソート方法はkeyを設定した場合さらに数倍のスピードをもたらします。

結局今回もdata.tableを普通のソートを使っていたので、最速のsetorderを使うことで、10s -> 100msと、約１００倍高速になることがわかりました。