- AIでデータ分析-SARIMAモデル:NVIDIAの株価を予測する
- 用いるデータの紹介
- AIの活用:ChatGPTで実行する
- BIツールの活用:Exploratoryで実行する
- まとめ
AIでデータ分析-SARIMAモデル:NVIDIAの株価を予測する
このノートは、データ分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回はSARIMAモデルを用いてNVIDIAの株価の予測モデルを作成し、未来30日間の株価を予測してみたいと思います。
その際AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は30分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回検証に用いるデータのサンプルデータはNVIDIAの株価データです。
サンプルデータはこちらからダウンロードできます。
1行が1日の株価データになっています。列情報としては日付と株価があります。
AIの活用:ChatGPTでサンプルコードを作成し実行する
AIを使って予測モデル作成コードを生成し実行します。
結果を確認します。
観測値と予測値を可視化することができました。
最適な次数は(1 ,1 ,1)(0 ,0 ,0 ,5)でした。
予測精度は
MAE : 35.02
RMSE : 39.25
MAPE : 19.60%
AIC : 9635
所要時間は120分でした。
BIツールの活用:Exploratoryで実行する
Exploratoriyを開き、データをインポートしたらアナリティクスを開きます。
下記画像のように3箇所選択し、実行をクリックします。
観測値と予測値が可視化されました。
下にスライドしてくと解釈の仕方についてサポートがあります。
結果を確認します。
RMSE : 1.49
MAE : 0.60
MAPE : 0.02
AIC : 14420
所要時間は1分でした。
MAE、RMSE、MAPEはExploratoryが作成した予測モデルの方が精度が高いものの、AICだけAIで作成した予測モデルの方が値が小さく精度が高いことを示しており、どちらのモデルの方が良いモデルと言えるのでしょうか?
調べるとこれはよくあることで、どちらのモデルが良いか判断するにあたり、それぞれの評価指標が何を評価しているのかを理解することがポイントだそうです。
AICは標本内の評価指標で、学習データにどれだけうまく当てはまっているかを評価します。
AICが優れている(値が小さい)ということは、学習データに対しては、現在のSARIMAモデルの方が統計的にデータの特徴をよく捉え、かつ無駄な複雑さがないと判断されているということを意味するそうです。
一方MAE, RMSE, MAPEは標本外の評価指標であり、モデルが未知のデータ(テストデータ)に対してどれだけ正確に予測できるかを評価します。
これらの指標で以前の「Exploratory」モデルの方が優れている(値が小さい)ということは、未知のデータに対する予測性能は、Exploratoryモデルの方が高かったことを意味すると言えそうです。
また今回のようにAICだけ一方のモデルの方が良い場合、学習データに非常に良く適合しすぎた可能性があります。
つまり、学習データの個別のノイズまで学習してしまい、その結果、未知のデータであるテストデータに対しては汎化性能が落ち、予測誤差が大きくなったのかもしれません。
まとめ
今回はNVIDIAの株価をSARIMAモデルで予測するにあたり、2つの方法を試しました。
1つ目の方法はAIを用いた方法と、もう1つはExploratoryを用いた方法です。
結果はAIでも適切に予測モデルの作成、結果を得ることができたものの、今回は過学習が起きた可能性があり、Exploratoryの方が頑健性の高いモデルが作られていることを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-SARIMAモデル:NVIDIAの株価を予測する は以上となります!











