皆さんこんにちは。今日も引き続きChatGPT先生をお招きして、「ChatGPTとPythonで学ぶ GARCH」というテーマで雑談したいと思います。それではChatGPT先生、よろしくお願いします。
assistant:
もちろんです、こんにちは。今日はGARCHモデルについてお話しします。
GARCHモデルとは、金融経済学でよく用いられる、時系列データのボラティリティ(価格等の変動性)をモデリングするためのツールです。GARCHは「Generalized Autoregressive Conditional Heteroskedasticity」の略で、見直すと「一般化自己回帰条件付け等分散」を示します。
GARCHモデルでは、ボラティリティは過去の誤差絶対値や過去のボラティリティの情報を使って、それ自体が自己回帰すると考えます。一般的に金融時系列データでは、ボラティリティクラスタリングが現れ易いので(つまり、大きな価格変動が連続する傾向がある)、そのような特性を捉えるのにGARCHモデルは非常に有効です。
それでは、PythonでどのようにGARCHモデルを扱うのか見てみましょう。まず、GARCHモデルを扱うためのライブラリとして「arch」が存在します。これを使って、シンプルなGARCH(1, 1)モデルを適用するコード例を示します。
from arch import arch_model
# モデルの指定
model = arch_model(returns, vol='Garch', p=1, q=1)
# モデルのフィッティング
res = model.fit()
# 結果の表示
print(res.summary())
ここで、returnsは価格の収益率のデータとなります。
分析結果から、モデルのパラメータやモデルの適合度に関する情報を得ることができます。また、予測したボラティリティ等も得られます。
user:
GARCHモデルを学ぶのに適したデータセットはありますか?
assistant:
はい、一般的には金融市場の価格データ(特に収益率)がGARCHモデルを学ぶのに適したデータと言えます。そして、その中でも特にストックマーケットのデータはボラティリティのクラスタリング効果が顕著に現れやすいです。そのため、S&P 500株価指数や他の主要な金融市場のデータなどが学習には適しています。
Pythonでは、pandas_datareaderやyfinanceなどのライブラリを使って、Yahoo Financeからこれらのデータを直接ダウンロードすることができます。
例えば、以下のコードはyfinanceを用いてS&P 500の価格データを取得し、日次の収益率を計算するものです。
import yfinance as yf
# S&P 500のデータを取得
data = yf.download('^GSPC', start='2000-01-01', end='2020-12-31')
# 日次収益率を計算
returns = data['Close'].pct_change().dropna()
このような金融データを使ってGARCHモデルの学習・適用を試みることが一般的です。ただし、ボラティリティは非常に動的な特性を持つため、同じモデルが全ての時期に対して良い結果をもたらすわけではないので注意が必要です。モデルの選択やパラメータの調整が重要となります。
user:
それでは、yfinanceを用いてS&P 500の価格データを取得し、GARCHモデルで解析し結果を可視化し、性能を評価するPythonコードを書いてください。その際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。
assistant:
了解しました。下記に詳細なコードを作成します。Arch
ライブラリには結果のプロット機能も含まれていますが、今回はあくまでモデルのフィッティングと評価に焦点を当てます。為替レートのデータを使用し、最尤法を用いてGARCHモデルのパラメータを最適化し、その結果を表示します。
import yfinance as yf
import numpy as np
from arch import arch_model
import pandas as pd
from sklearn.metrics import mean_squared_error
# データ取得
def fetch_data() -> pd.DataFrame:
data = yf.download('^GSPC', start='2010-01-01', end='2020-12-31')
return data
# 収益率の計算
def calculate_returns(data: pd.DataFrame) -> pd.Series:
returns = np.log(data['Close']/data['Close'].shift(1)).dropna()
return returns
# モデルのフィッティングと予測
def fit_and_predict(returns: pd.Series):
model = arch_model(returns, vol='Garch', p=1, q=1)
model_fit = model.fit(disp='off')
predictions = model_fit.forecast(horizon=7)
print(model_fit.summary())
return predictions.variance[-1:]
# 性能評価
def evaluate_performance(data: pd.Series, predictions: pd.DataFrame):
returns_squared = np.square(data)
mse = mean_squared_error(returns_squared, predictions)
print(f'The Mean Squared Error of our forecasts is {mse}')
def main():
data = fetch_data()
returns = calculate_returns(data)
predictions = fit_and_predict(returns[:-7]) # Use data until 7 days before the end for training
evaluate_performance(returns[-7:], predictions) # Use the last 7 days for testing
if __name__=='__main__':
main()
まず、fetch_data
関数でS&P 500のデータをダウンロードします。次に、calculate_returns
関数でそのデータから収益率を計算し、その後、GARCHモデルのパラメータをフィッティングします。これは、fit_and_predict
関数内で行います。最後に、モデルの予測性能をMean Squared Error(MSE)を用いて評価します。
データが大きく変動する金融時間系列においては、モデルのパラメータを定期的に再最適化(つまり、モデルを更新)していくことが一般的です。特にGARCHモデルのようなボラティリティモデルでは、定期的に再フィッティングを行うことが推奨されます。
また、このコードはあくまでデモンストレーションであり、比較的直感的な評価尺度(MSE)を用いています。実世界のアプリケーションでは、より複雑な評価尺度やバックテスト手順が一般的に必要となります。
このようにPythonを使うと、GARCHなどの時間系列モデリング手法を比較的簡単に使うことができます。
user:
ありがとうございます。上記コードをベースに、下記エラーを修正した全コードを書いてください。またその際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。
[*********************100%%**********************] 1 of 1 completed
Constant Mean - GARCH Model Results
==============================================================================
Dep. Variable: Close R-squared: 0.000
Mean Model: Constant Mean Adj. R-squared: 0.000
Vol Model: GARCH Log-Likelihood: 9234.95
Distribution: Normal AIC: -18461.9
Method: Maximum Likelihood BIC: -18438.2
No. Observations: 2760
Date: Wed, Dec 13 2023 Df Residuals: 2759
Time: 18:00:18 Df Model: 1
Mean Model
============================================================================
coef std err t P>|t| 95.0% Conf. Int.
----------------------------------------------------------------------------
mu 2.4625e-04 7.860e-07 313.292 0.000 [2.447e-04,2.478e-04]
Volatility Model
============================================================================
coef std err t P>|t| 95.0% Conf. Int.
----------------------------------------------------------------------------
omega 2.4525e-06 3.917e-12 6.261e+05 0.000 [2.452e-06,2.453e-06]
alpha[1] 0.2000 2.632e-02 7.599 2.991e-14 [ 0.148, 0.252]
beta[1] 0.7800 2.144e-02 36.384 7.756e-290 [ 0.738, 0.822]
============================================================================
Covariance estimator: robust
/home/ikemen/.local/lib/python3.10/site-packages/arch/univariate/base.py:310: DataScaleWarning: y is poorly scaled, which may affect convergence of the optimizer when
estimating the model parameters. The scale of y is 0.0001226. Parameter
estimation work better when this value is between 1 and 1000. The recommended
rescaling is 100 * y.
This warning can be disabled by either rescaling y before initializing the
model or by setting rescale=False.
warnings.warn(
/home/ikemen/.local/lib/python3.10/site-packages/arch/univariate/base.py:1890: FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`
if isinstance(table_val[pos], (np.float64, float)):
/home/ikemen/.local/lib/python3.10/site-packages/arch/univariate/base.py:1891: FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`
assert isinstance(table_val[pos], float)
/home/ikemen/.local/lib/python3.10/site-packages/arch/univariate/base.py:1892: FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior). To access a value by position, use `ser.iloc[pos]`
converted = format_float_fixed(table_val[pos], *formats[i])
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
Cell In[4], line 38
35 evaluate_performance(returns[-7:], predictions) # Use the last 7 days for testing
37 if __name__=='__main__':
---> 38 main()
Cell In[4], line 35, in main()
33 returns = calculate_returns(data)
34 predictions = fit_and_predict(returns[:-7]) # Use data until 7 days before the end for training
---> 35 evaluate_performance(returns[-7:], predictions)
Cell In[4], line 28, in evaluate_performance(data, predictions)
26 def evaluate_performance(data: pd.Series, predictions: pd.DataFrame):
27 returns_squared = np.square(data)
---> 28 mse = mean_squared_error(returns_squared, predictions)
29 print(f'The Mean Squared Error of our forecasts is {mse}')
File /usr/local/lib/python3.10/site-packages/sklearn/utils/_param_validation.py:214, in validate_params.<locals>.decorator.<locals>.wrapper(*args, **kwargs)
208 try:
209 with config_context(
210 skip_parameter_validation=(
211 prefer_skip_nested_validation or global_skip_validation
212 )
213 ):
--> 214 return func(*args, **kwargs)
215 except InvalidParameterError as e:
216 # When the function is just a wrapper around an estimator, we allow
217 # the function to delegate validation to the estimator, but we replace
218 # the name of the estimator by the name of the function in the error
219 # message to avoid confusion.
220 msg = re.sub(
221 r"parameter of \w+ must be",
222 f"parameter of {func.__qualname__} must be",
223 str(e),
224 )
File /usr/local/lib/python3.10/site-packages/sklearn/metrics/_regression.py:474, in mean_squared_error(y_true, y_pred, sample_weight, multioutput, squared)
404 @validate_params(
405 {
406 "y_true": ["array-like"],
(...)
415 y_true, y_pred, *, sample_weight=None, multioutput="uniform_average", squared=True
416 ):
417 """Mean squared error regression loss.
418
419 Read more in the :ref:`User Guide <mean_squared_error>`.
(...)
472 0.825...
473 """
--> 474 y_type, y_true, y_pred, multioutput = _check_reg_targets(
475 y_true, y_pred, multioutput
476 )
477 check_consistent_length(y_true, y_pred, sample_weight)
478 output_errors = np.average((y_true - y_pred) ** 2, axis=0, weights=sample_weight)
File /usr/local/lib/python3.10/site-packages/sklearn/metrics/_regression.py:99, in _check_reg_targets(y_true, y_pred, multioutput, dtype)
65 def _check_reg_targets(y_true, y_pred, multioutput, dtype="numeric"):
66 """Check that y_true and y_pred belong to the same regression task.
67
68 Parameters
(...)
97 correct keyword.
98 """
---> 99 check_consistent_length(y_true, y_pred)
100 y_true = check_array(y_true, ensure_2d=False, dtype=dtype)
101 y_pred = check_array(y_pred, ensure_2d=False, dtype=dtype)
File /usr/local/lib/python3.10/site-packages/sklearn/utils/validation.py:407, in check_consistent_length(*arrays)
405 uniques = np.unique(lengths)
406 if len(uniques) > 1:
--> 407 raise ValueError(
408 "Found input variables with inconsistent numbers of samples: %r"
409 % [int(l) for l in lengths]
410 )
ValueError: Found input variables with inconsistent numbers of samples: [7, 1]
assistant:
エラーメッセージから、モデル予測の段階で問題が起きていることがわかります。具体的には評価関数 evaluate_performance
の mean_squared_error
呼び出しで問題が起きています。この関数は、予測された値と実際の値が同じ長さを持つことを期待しますが、predictions
変数は1個の行しか持っていませんが、returns
は7個のエントリがあります。
これは fit_and_predict
の返り値である predictions
の取り扱いに起因しているものと思われます。この関数では、horizon=7
を設定していますが、現行の実装では最終的な7日間の予測結果だけが返されます。つまり、7つの異なる時点に対する予測ではなく、1つの7日間の予測を得ているのです。
この問題を解決するために、fit_and_predict
でrolling windowの予測を行うロジックを追加しましょう。つまり、予測するごとに新しい観測値でモデルを更新するローリング予測を行います。以下に対応するコードを示します。
注意:この操作は計算量が増え、実行時間がかかります。
import yfinance as yf
import numpy as np
from arch import arch_model
import pandas as pd
from sklearn.metrics import mean_squared_error
# データ取得
def fetch_data() -> pd.DataFrame:
data = yf.download('^GSPC', start='2010-01-01', end='2020-12-31')
return data
# 収益率の計算
def calculate_returns(data: pd.DataFrame) -> pd.Series:
returns = np.log(data['Close']/data['Close'].shift(1)).dropna()
return returns
# モデルのフィッティングと予測
def fit_and_predict(returns: pd.Series) -> pd.DataFrame:
rolling_predictions = []
window_size = 252 # ローリングウィンドウのサイズを定義します
for i in range(window_size, len(returns)):
train = returns[i-window_size:i]
model = arch_model(train, vol='Garch', p=1, q=1)
model_fit = model.fit(disp='off')
pred = model_fit.forecast(horizon=1)
rolling_predictions.append(pred.variance.values[-1, :][0])
# Listをpandas.DataFrameに変換します
predicted_variance = pd.DataFrame(rolling_predictions, index=returns.index[window_size:])
return predicted_variance
# 性能評価
def evaluate_performance(returns: pd.Series, predicted_variance: pd.DataFrame) -> None:
returns = returns[returns.index >= predicted_variance.index[0]]
returns_squared = np.square(returns)
mse = mean_squared_error(returns_squared, predicted_variance)
print(f'The Mean Squared Error of our forecasts is {mse}')
def main():
data = fetch_data()
returns = calculate_returns(data)
predicted_variance = fit_and_predict(returns)
evaluate_performance(returns, predicted_variance)
if __name__=='__main__':
main()
このコードでは、252営業日(一般的な1年間の営業日数)のローリングウィンドウを用いて、それぞれの時点での1日先の予測を行います。そのため、最終的にはreturnsと同じ長さの予測結果を得ることができます。予測結果を評価するための関数 evaluate_performance
では、予測可能な範囲の returns
をスライスして、mseを計算しています。
user:
ありがとうございます。上記コードをベースに、下記エラーを修正した全コードを書いてください。またその際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。
warnings.warn(
/home/ikemen/.local/lib/python3.10/site-packages/arch/univariate/base.py:310: DataScaleWarning: y is poorly scaled, which may affect convergence of the optimizer when
estimating the model parameters. The scale of y is 0.0004485. Parameter
estimation work better when this value is between 1 and 1000. The recommended
rescaling is 100 * y.
This warning can be disabled by either rescaling y before initializing the
model or by setting rescale=False.
warnings.warn(
/home/ikemen/.local/lib/python3.10/site-packages/arch/univariate/base.py:310: DataScaleWarning: y is poorly scaled, which may affect convergence of the optimizer when
estimating the model parameters. The scale of y is 0.000449. Parameter
estimation work better when this value is between 1 and 1000. The recommended
rescaling is 100 * y.
This warning can be disabled by either rescaling y before initializing the
model or by setting rescale=False.
assistant:
エラーメッセージは実際には警告で、モデルパラメータの推定時に最適化アルゴリズムの収束に影響を与える可能性がある、というものです。具体的には、収益率のスケーリング(規模)が小さすぎて、モデルのパラメータ推定がうまくいかない可能性があると警告しています。収益率のスケールは0.0004485と非常に小さい一方で、パラメータ推定は一般にスケールが1から1000の範囲でうまく機能するとされています。
この警告を取り除くためには、モデルのパラメータ推定前に収益率をリスケーリングするか、モデルのrescale
パラメータをFalse
に設定する必要があります。以下に、この対処法を適用したコードを示します。
import yfinance as yf
import numpy as np
from arch import arch_model
import pandas as pd
from sklearn.metrics import mean_squared_error
# データ取得
def fetch_data() -> pd.DataFrame:
data = yf.download('^GSPC', start='2010-01-01', end='2020-12-31')
return data
# 収益率の計算
def calculate_returns(data: pd.DataFrame) -> pd.Series:
returns = np.log(data['Close']/data['Close'].shift(1)).dropna()
return returns
# モデルのフィッティングと予測
def fit_and_predict(returns: pd.Series) -> pd.DataFrame:
rolling_predictions = []
window_size = 252 # ローリングウィンドウのサイズを定義します
for i in range(window_size, len(returns)):
train = returns[i-window_size:i]*100 # Returnsをリスケーリングします
model = arch_model(train, vol='Garch', p=1, q=1)
model_fit = model.fit(disp='off')
pred = model_fit.forecast(horizon=1)
rolling_predictions.append(pred.variance.values[-1, :][0])
# Listをpandas.DataFrameに変換します
predicted_variance = pd.DataFrame(rolling_predictions, index=returns.index[window_size:])
return predicted_variance
# 性能評価
def evaluate_performance(returns: pd.Series, predicted_variance: pd.DataFrame) -> None:
returns = returns[returns.index >= predicted_variance.index[0]]
returns_squared = np.square(returns)*10000 # Returnsの二乗を計算し、リスケーリングします
mse = mean_squared_error(returns_squared, predicted_variance)
print(f'The Mean Squared Error of our forecasts is {mse}')
def main():
data = fetch_data()
returns = calculate_returns(data)
predicted_variance = fit_and_predict(returns)
evaluate_performance(returns, predicted_variance)
if __name__=='__main__':
main()
上記のコードでは、収益率をリスケーリングする際に100を掛けています。これは、収益率が通常小数点以下の範囲にあるためです。リスケーリング後の収益率をモデルにフィットさせることで、収束の問題を緩和することが可能です。ただし、リスケーリングはモデルの出力にも影響を与えるため、予測された分散を評価する際には、リスケーリングを逆に適用する必要があります。したがって、returns_squared
を計算する際にもリスケーリング係数(この場合は平方なので100の2乗)を掛けています。
user:
ありがとうございます。次の結果が得られました。
[*********************100%%**********************] 1 of 1 completed
The Mean Squared Error of our forecasts is 20.027448398796516
assistant:
お疑いのとおり、Mean Squared Error (MSE)は予測エラーの平均値を表しています。しかしながら、その値自体に "良い" あるいは "悪い" といった具体的な閾値は存在しません。予測モデルの性能を評価する上で、MSEの値が大きいほど予測精度が悪いことは間違いありませんが、一方でその値が具体的にどれほどの予測能力を示すのかは、問題設定やデータの性質、あるいは比較対象となる他のモデルのMSE等によります。
上記の値 20.027448398796516
を評価するために、他のモデルや予測戦略と比較することをお勧めします。一般的には、同じデータに対して異なるモデルや異なる設定で予測を行い、その結果を比較することで、あるモデルの性能を相対的に評価することができます。
また、またMSE以外にも予測エラーの評価指標は多く存在します(例えば、Mean Absolute Error (MAE)、Root Mean Square Error (RMSE)、Mean Absolute Percentage Error (MAPE)など)。これらの評価指標を組み合わせて利用することで、より全面的に予測結果を評価することが可能です。
さらに、MSEが計算された予測の「誤差」が具体的にどのようなものなのかを理解することも重要です。例えば、外れ値に強いモデルによる予測の場合、MSEはそれほど大きくないかもしれませんが、その予測結果が実際の欠損値を正確に捉えられているのかどうかは別の問題です。この点を評価するためには、実際の予測結果と真値を比較し、誤差の分布やパターンを詳しく分析することが必要です。
user:
ここまでの議論を踏まえて、予測結果の可視化も行うように、修正した全コードを書いてください。またその際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。
assistant:
user:
ここまでの議論を踏まえて、予測結果の可視化も行うように、修正した全コードを書いてください。またその際に、型ヒントも導入してください。コード中に日本語での説明も可能な限り詳しくお願いします。Pythonのコーディング規約PEP8に準拠してください。
assistant:
以下に修正したコードを示します。ここでは、予測結果を可視化するための新たな関数 plot_predictions
を追加しています。
import yfinance as yf
import numpy as np
from arch import arch_model
import pandas as pd
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
# データ取得
def fetch_data() -> pd.DataFrame:
data = yf.download('^GSPC', start='2010-01-01', end='2020-12-31')
return data
# 収益率の計算
def calculate_returns(data: pd.DataFrame) -> pd.Series:
returns = np.log(data['Close']/data['Close'].shift(1)).dropna()
return returns
# モデルのフィッティングと予測
def fit_and_predict(returns: pd.Series) -> pd.DataFrame:
rolling_predictions = []
window_size = 252 # ローリングウィンドウのサイズを定義します
for i in range(window_size, len(returns)):
train = returns[i-window_size:i]*100 # Returnsをリスケーリングします
model = arch_model(train, vol='Garch', p=1, q=1)
model_fit = model.fit(disp='off')
pred = model_fit.forecast(horizon=1)
rolling_predictions.append(pred.variance.values[-1, :][0])
# Listをpandas.DataFrameに変換します
predicted_variance = pd.DataFrame(rolling_predictions, index=returns.index[window_size:])
return predicted_variance
# 性能評価
def evaluate_performance(returns: pd.Series, predicted_variance: pd.DataFrame) -> None:
returns = returns[returns.index >= predicted_variance.index[0]]
returns_squared = np.square(returns)*10000 # Returnsの二乗を計算し、リスケーリングします
mse = mean_squared_error(returns_squared, predicted_variance)
print(f'The Mean Squared Error of our forecasts is {mse}')
# 予測結果の可視化
def plot_predictions(returns: pd.Series, predicted_variance: pd.DataFrame) -> None:
returns = returns[returns.index >= predicted_variance.index[0]]
returns_squared = np.square(returns)*10000 # Returnsの二乗を計算し、リスケーリングします
# Plot returns and predicted variance
fig, ax = plt.subplots(figsize=(10,5))
ax.plot(returns_squared, color = 'blue', label = 'Returns squared')
ax.plot(predicted_variance, color = 'red', label = 'Predicted Variance')
ax.xaxis.set_major_locator(mdates.YearLocator())
ax.xaxis.set_major_formatter(mdates.DateFormatter('%Y'))
plt.title('Returns squared and Predicted Variance over time')
plt.legend()
plt.grid(True)
plt.show()
def main():
data = fetch_data()
returns = calculate_returns(data)
predicted_variance = fit_and_predict(returns)
evaluate_performance(returns, predicted_variance)
plot_predictions(returns, predicted_variance)
if __name__=='__main__':
main()
上記のコードでは、収益率と予測された分散を同時にプロットしています。これにより、実際の収益率の変動と予測された分散間の関係を視覚的に確認することが可能です。ただし、ここでもリスケーリングの影響を考慮しつつ収益率の二乗をプロットしていることに注意してください。
user:
ありがとうございます。計算結果が得られました。
assistant:
それは素晴らしいです!どんな結果が得られたか教えていただけますか? 意図した通りの結果になった、または何か興味深い発見があったかなど、詳細を共有いただけるとありがたいです。もし他に質問がある場合や追加の助けが必要な場合は、遠慮なく聞いてください。私たちは常にお手伝いする準備ができています。
user:
Mean Squared Error (MSE)はさっきのと同じなので。ところで、GARCHは、ARIMAやSARIMAと比べて何がどう違うか詳しく教えてください。
assistant:
ARIMA(自己回帰和分移動平均)、SARIMA(季節性ARIMA)およびGARCH(一般化自己回帰条件付き異質分散)が適合する問題の性質により、これらのモデルの間にはいくつかの主要な違いが存在します。
ARIMAモデル:
- ARIMA(1, d, 1)は、AR(1)+MA(1)+d回の非季節性差分から構成されています。
- 時系列の平均をモデル化します。
- データが非定常状態でも適用できます。非定常性は差分を取ることで排除します。
SARIMAモデル:
- SARIMAはARIMAの拡張であり、季節性の周期を考慮に入れることができます。
- ARIMA同様、非定常状態のデータにも適用可能で、季節性と非季節性の両方の差分を取ることで非定常性を排除します。
GARCHモデル:
- 時系列データの 分散 をモデル化します。ARIMAとは異なり、分散が時間とともに変動することを認識します(条件付き異質分散)。
- 平均をモデル化するためには、ARIMAのような別のモデルを組み合わせて使用すると良いでしょう。
- 誤差項が "ボラティリティのクラスタ化"(大きな誤差が連続して発生する現象)を示す場合に非常に適しています。たとえば、株価のリターンのような金融時系列データによく見られます。
ARIMAやSARIMAは時間の経過とともに時系列データの平均値がどのように変化するかを予測しますが、GARCHは時間の経過とともにその分散がどのように変化するかを予測します。そのため、これらのモデルは時系列解析の異なる側面を捉えています。GARCHは、時系列データの「ボラティリティ」(価格の変動等)が時間とともにどのように変わるかを予測するために広く用いられます。
user:
ありがとうございます。それでは最後に、これまでの議論を踏まえたコントを創作してください。
assistant:
それでは、以下にフィナンシャルコントを提案してみます。
<舞台:売買部>
デッカー(ベテラントレーダー):「データはシナリオさえ適切なら全てを教えてくれる。」
新米トレーダー、ジョーンズ:「でもペーパーにはARIMAが最も精度が高いと書いてありました。」
デッカー:「そうだろうか。それだけでは分散が時間とともにどう動くのかわからない。」
ジョーンズ:「GARCHですか?」
デッカー:「その通り。GARCHモデルなら不等分散性を見つけられる、ボラティリティをしっかりと把握しなければな。」
ジョーンズ:「でもMSEが20になります...」
デッカー:「絶対値ではなく、相対値だジョーンズ。他のモデルと比較せねばならんぞ!」
<舞台:分析室>
ジョーンズ:「・・・分散とは人生そのものだ。それを理解するためにGARCHを使うんだ。」
<舞台:売買部、数ヶ月後>
デッカー:「なかなかよくやったな、ジョーンズ!GARCHの分析結果、すばらしい!」
ジョーンズ:「ARIMA、SARIMA、そしてGARCH...勉強して良かったですね。」
デッカー:「それが投資の世界。少々ややこしいが、それぞれのモデルにはそれぞれの役割がある。」
繰り返しになりますが、上記のコントは、負けたくない投資家たちが、どのようにGARCHやその他の時系列分析手法を駆使して最良のトレードを追求しようとする、彼らの頭の中の様子を表現したものです。コントの目的は笑いを誘うだけでなく、聴術者に対してこれらの概念をインフォーマルな方法で説明することです。