#概要
この記事では、Dr. Marcos著「Financial Machine Learning」の2.3章、バーの内容の補足?を行います(自分がいまいち理解できなかった箇所について調べたことをまとめています)。内容そのものを読みたい方は、是非お買い求めください。もし記事内に誤りに気づかれたら、是非遠慮なくコメント蘭にてご指摘いただければと思います。
#バーについて
基本的に機械学習は、特徴量とラベルの行列(テーブル)を仮定します。オルタナティブデータを用いる場合でも、自然言語処理ならばベクトル化を行い、一つの特徴量に落とし込み、行列にします。
金融ではこのテーブルの行をバーと伝統的に呼みます。要は一つのサンプルのことですね。よくあるのは、時間によってサンプリングを行なったバー(標準バー)ですね。本の中では、ティックバーやボリューム(出来高)バーなど、様々なバーが紹介されています。
##なぜバーについて考えるのか?
いくつかバーがあると述べましたが、そもそもなぜいくつか必要なのでしょうか?なぜ標準バーではいけないのでしょうか?それは、サンプリングの基本である無作為抽出になっていないから、というのが回答になります。
サンプリングとは、基本的に元の母集団を再現する(標本誤差が小さくなるように)ようにサンプリングされるべきです(Wikipedia[無作為抽出])。
例として、ある株のリターン分布について考えてみましょう。よく知られている通り、株の取引は時間帯によって出来高が異なります。ここで、例えば分足でサンプリングすることを考えてみます。分足でサンプリングすると、多くの取引があった際(例えば引けなど)には、それら多くの取引を数本のバーで表すため、過少サンプリングとなります。一方、取引が少ない際には、過大サンプリングとなります。
加えて、標準バーを用いていると、分布の非正規性や分散不均一性など、統計モデリング的にあまり好ましくない系列となります(D. Easley, M. L. De Prado, and M. O'Hara(2012)。このような系列では、誤差項が正規分布であり、標準偏差も一定である単純な線形回帰では上手くいかないというわけですね1。
まとめると、標準バーでサンプリングを行なった場合、
- そもそも推定すべき母集団の分布も異なる
- 系列自体もモデリング的に好ましくない統計的性質を持つ
というのが標準バーを避けるべき理由となります。上記の問題を避ける手段として、ボリュームバーなどいくつかのサンプリングの方法が本の中では紹介されているという訳です2。いわゆる層化抽出に対応すると筆者は考えています。
まとめ
本記事では、なぜいくつかのバーが考案されているのかの背景をお話させて頂きました。一言でまとめると、元の母集団を再現するようにサンプリングを行うためということでした。この考え方は、統計モデリング一般にとても大切です。なぜなら、元の母集団を表すように適切にサンプリングされていないと、それらのデータを用いて統計モデルを組んだところで正しい結果を得られないためです。