はじめに
UKIです。
7月19日に開催されたJ-Quantsデータ分析コンペティション表彰式での入賞者プレゼンにて頂いた質問に回答します。
質疑応答にて回答済みの質問一覧
- XGBRを使われた理由を教えて頂きたいです。 (Lassoを使用していない理由)
- 「方向予測」の定義をもう一度教えて頂きたいです。 上がったものが、さらに上がることがトレンド だと思いますがいかがでしょうか。
- ニュース分析ではファンダメンタル分析チャレンジと異なり、買付タイミングが決算発表のタイミングではないですが、どのようにファンダメンタル分析のモデルを流用したのですか? 元々、任意のタイミングで予測できるモデルだったのでしょうか。
- 今後UKIさんが参加してみたいと思う株コンペのテーマはありますか?
- UKIさんは、hohetoさんと共に、仮想通貨でも活躍されていますが、株と仮想通貨のデータ分析の違いがあったら教えて頂きだいです。
- 7ページ目、CV不要の理由をもう一度お願いできれば嬉しいです。
頂いた残りの質問回答
(1)非定常性に関して特徴量(ファクター)の有効性は局面によって変わると思いますが、構造変化によるものなのか単にオーバーフィットだったのかは区別できるとお考えですか?
これは区別できると思います。ただしデータのみでの区別は不可能です。合理的な説明ができるかどうか人間による判断が必要で、多角的な観点から検証が必要になると思います。
(2)ボラ予測に効くのはテクニカル系の特徴量、方向予測に効くのはファンダメンタルズ系の特徴量だったのでしょうか。
一番効果のあった指標はその通りですが、例えばボラ予測に効くファンダメンタルズ指標もあります。これは時価総額や売上高(生値)などが挙げられます(=小型株は総じてボラが高い傾向にある)。
(3)財務データは、クロスセクションかタイムシリーズどちらの分析になるのでしょうか。
財務データは基本的にクロスセクションでの分析となります。一方、Further Workのスライドで示した通り、来期予測などはタイムシリーズでも分析できる可能性があります。
(4)ニュース分析をポートフォリオ構築の戦略に取り入れるとしたら、どのくらいの期間のデータが必要と思われますか?また、有効と思われますか?
経験的な話になりますが、直近5年間のデータが必要です(それよりも長い期間は不要)。決算データと同じく有効だと思います(ニュース当日の終値ベースでは十分な説明力が生じ、翌日仕掛けでもそこそこの利幅が残る)。
(5)「来期の決算を予想する」というのは、言い換えると 来期のProfit Marginを予想するというニュアンスでしょうか。
決算において最も値動きへ影響する指標がProfit Marginですので、いったんProfit Marginをターゲットとおいて問題ありません。一方で、利益率を予測するよりもその構成要素である売上高、売上原価などを個別に予測して組み合わせるほうが理に適っていると思います。
(6)何個くらいの特徴量を試しましたか?
当初、2月初旬くらいに作ったモデルの特徴量は20くらいでした。このときはモデルの精度よりもモデル構造を重視していました。理論にマッチしたモデル構造が美しいと考えていたためです。3月に入って他の参加者のLBスコアの推移を見てみると「このモデルでは勝てないな」と思ったため、ガンガン特徴量を追加してなりふりかまわず精度を上げる方針に変更しました。最終的には200くらい試したと思います。
(7)UKIさんの研究として「ボラ予測」「方向予測」を共に含んだ最強の特徴量を探索したりしているのでしょうか?
私の研究は「実運用で利益を出すにはどうすればよいか」を考えています。当然特徴量の探索も必要となりますが、どうやって特徴量を探せばよいかその探索方法を確立することも重要です。また、「予測ができる」ことと「運用ができる」ことは異なります(予測モデルを作れても実運用まで至れない、また実運用に至っても途中で挫折する方が多いと思います)。実際の運用システムの構築手法も重要な研究テーマです。これらを含めてスライドでは「ファイナンスデータの分析および収益化のためのフレームワークの研究」と書きました。
この観点から付け加えますが、最強の特徴量の探索というのは実はあまり意味がないと考えています。そこそこの特徴量を5個くらい見つければそれがベストだと思います。
(8)1位望月さんの発表から、どういった点が差になったと考えますか?
今回のコンペは特徴量では差が付きにくいコンペだったと思います(特徴量追加すれば精度は上がるが、そのうち頭打ちになる)。最終的にはモデルの精度が差になったと考えています。ファイナンスデータへのランク学習適用のフレームワークについて、追加研究してみたいと思いました。
(9)ATRと標準偏差を両方とも入れているのはなぜですか?
標準偏差もターゲットとの相関が高いため、ATRと併用することでモデル精度が上がります。
(10)実運用の投資の際と、今回のコンペで使用した特徴量にて大きな違いはありますか?
かなり違うと思います。イベント的に価格を動かす特徴量と、普段の市場で説明力を持つ特徴量は異なる、ということです。
また特徴量に限らずモデルの話もすると、もしも実運用する場合は今回作ったモデルは絶対に使わないです。2、3個の指標を使った単純な組み合わせによるモデル(ルールベースモデル)に落とし込むと思います。
(11)個人の投資にはデータ分析が必要と考えていることですが、今後激化した場合でも個人にも利益は残ると思いますか。
これは間違いなく残ります。具体的に言うと、個人投資家の最大の武器はポジションを即時建てれることです。例えば、個人投資家と機関投資家が同じ銘柄を買い付けしようとした場合、個人投資家は寄り成りで一括でポジションを建てることができますが、機関投資家はそういうわけにはいきません。VWAPやMOCといった注文を使い、場合によっては複数日に渡ってポジションを作ります。
機関投資家はやられっぱなしで対策してこないのか?これはしてこないです。売買で利益を出す必要のない機関投資家というものも存在するのです。逆に言うと、このような観点からの戦略構築が重要となります。
(12)日本株のトレードをされていると思いますが、米国株など外国株についても機械学習を用いた手法は有効だとお考えでしょうか。
これは有効だと考えています。Numeraiという海外のファイナンスデータトーナメントでモデル構築したことがありますが、米国株はじめ外国株のほうが予測しやすいという印象を受けました(理由は不明です)。