こんにちは。
林@アイエンターです。
前回のブログでは、Pythonのデータ解析ライブラリの「scikit-learn」での回帰分析をご紹介しました。
その際に、AnacondaというPythonパッケージをインストールしたわけですが、
今回はその中のPandasや、データ可視化用にSeabornを導入し、米国自動車株の解析を行ってみます。
株価データの読み込み
まずは、jupyter notebookで解析をしていく際の基本ライブラリをインポートします。
時間を扱うため、datetimeモジュールと、外部からのデータ読み込みのため
DataReaderを使用できるように準備します。
たとえば、「ゼネラルモーターズ」の過去1年分のデータをYahooサイトから読み込む処理を書いてみます。
ちなみに、ゼネラルモーターズの銘柄コードは「GM」になります。
カラムのそれぞれの意味は以下のとおりです。
- Open:始値
- High:高値
- Low:安値
- Close:終値
- Volume:出来高(1日に取引が成立した株の数)
- Adj Close:調整後終値(調整後終値とは)
株価データの推移の可視化
終値の推移をグラフで確認してみます。
終値は「Adj Close」の調整後の終値の方を用います。
株価の投資リスクの指標として、日ごとの変動推移がポイントとなります。
例えばSeriesのpct_change関数を用いると変動推移が計算できます。
企業間の株価相関比較
さきほどは、ゼネラルモーターズの株価にフォーカスして解析を行いました。
次は同業企業間での株価の相関を見ていきます。
相関を可視化するために「Seaborn」を導入します。
コマンドラインでは以下のコマンド入力でインストール可能です。
pip install seaborn
今回、自動車メーカーとして以下の5社の相関を見ていきます。
- ゼネラルモーターズ(銘柄コード「GM」)
- フォードモーター(銘柄コード「F」)
- トヨタ(銘柄コード「TM」)
- ホンダ(銘柄コード「HMC」)
- テスラモーターズ(銘柄コード「TSLA」)
これらの企業の終値のデータで、日ごとの変動推移のデータを計算します。
ちょっと関係性が良く分からないですよね。。。
ここでSeabornのpairplot関数を用いて可視化してみます。
グラフでの相関の高さについては、直線上に点が密集している程、相関が高いと
イメージしてもらえればと思います。
(参考:相関係数)
そのような観点で見ると、
「GM(ゼネラルモーターズ)」と「F(フォードモーター)」の米国企業ペア、
「TM(トヨタ)」と「HMC(ホンダ)」の日本国企業ペアが
相関が比較的高いことがイメージできるかと思います。
また、逆に「TSLA(テスラモーターズ)」のような後発の電気自動車企業は
他企業と相関は薄いこともイメージできるかと思います。
さらに、相関が分かりやすくSeabornのheatmapを使ってみます。
各企業間のデータの相関係数値を色の濃さで表現してます。
より視覚的に分かりやすい形になりました。
今回のお話はここまで!