More than 1 year has passed since last update.

Vantage 時系列関数を利用した架空の航空会社の旅客数予測

Posted at 2023-05-18

はじめに

ある架空の航空会社であるXYZ エアラインの分析ユースケースを想定して話しを進めたいと思います。
新興企業である XYZ エアラインは実績ベースの時系列データを元にして航空会社を利用する乗客数の需要を予測したいと考えました。
ARIMAモデル は信頼性も高く効率的で短期の株式市場の動きを予測する事でも認められており多くの分野で予測に広く利用されている分析手法です。
そこで航空機の需要(搭乗者数)を予測するためにARIMAモデルを構築する事にしました。

ARIMA(Auto Regressive Integrated Moving Average)は AR(Auto Regressive)とMA(Moving Average)の2つのモデルを組み合わせたモデルです。
それぞれ AR、I、MAの要素に由来しており ARの部分は前期と後期の相関、MAはノイズを平滑化するためのもの。I は AR と MA を結合します。
ハイパーパラメータとして P(自己回帰ラグ)、D(微分次数)、Q(移動平均)の要素を持ちます。

1. データセットを用意する

1.1. airpassengersテーブルを作成

デモで使用するデータは Vantage上に存在する事を前提とします。
データは 2007年から2018年までの月別フライト実績(144行)です。
この分析手法は複数の時系列を同時に持つ巨大なデータセットにも適用することが可能です。

airpassengersテーブル

CREATE MULTISET TABLE airpassengers
(
      "Date" TIMESTAMP(6),                          -- 搭乗日
      Passengers BIGINT,                            -- 搭乗者数
      seriesID VARCHAR(1024) CHARACTER SET UNICODE  -- 系列
)
PRIMARY INDEX
(
	"Date"
);

サンプルデータ

airpassengers.csv

"Date","Passengers","seriesID"
"2007-01-01 01:33:36.000000","112","FlyHigh"
"2007-02-01 01:33:36.000000","118","FlyHigh"
"2007-03-01 01:33:36.000000","132","FlyHigh"
"2007-04-01 01:33:36.000000","129","FlyHigh"
"2007-05-01 01:33:36.000000","121","FlyHigh"
"2007-06-01 01:33:36.000000","135","FlyHigh"
"2007-07-01 01:33:36.000000","148","FlyHigh"
"2007-08-01 01:33:36.000000","148","FlyHigh"
"2007-09-01 01:33:36.000000","136","FlyHigh"
"2007-10-01 01:33:36.000000","119","FlyHigh"
"2007-11-01 01:33:36.000000","104","FlyHigh"
"2007-12-01 01:33:36.000000","118","FlyHigh"
"2008-01-01 01:33:36.000000","115","FlyHigh"
"2008-02-01 01:33:36.000000","126","FlyHigh"
"2008-02-29 01:33:36.000000","141","FlyHigh"
"2008-03-31 01:33:36.000000","135","FlyHigh"
"2008-04-30 01:33:36.000000","125","FlyHigh"
"2008-05-31 01:33:36.000000","149","FlyHigh"
"2008-06-30 01:33:36.000000","170","FlyHigh"
"2008-07-31 01:33:36.000000","170","FlyHigh"
"2008-08-31 01:33:36.000000","158","FlyHigh"
"2008-09-30 01:33:36.000000","133","FlyHigh"
"2008-10-31 01:33:36.000000","114","FlyHigh"
"2008-11-30 01:33:36.000000","140","FlyHigh"
"2008-12-31 01:33:36.000000","145","FlyHigh"
"2009-01-31 01:33:36.000000","150","FlyHigh"
"2009-02-28 01:33:36.000000","178","FlyHigh"
"2009-03-31 01:33:36.000000","163","FlyHigh"
"2009-04-30 01:33:36.000000","172","FlyHigh"
"2009-05-31 01:33:36.000000","178","FlyHigh"
"2009-06-30 01:33:36.000000","199","FlyHigh"
"2009-07-31 01:33:36.000000","199","FlyHigh"
"2009-08-31 01:33:36.000000","184","FlyHigh"
"2009-09-30 01:33:36.000000","162","FlyHigh"
"2009-10-31 01:33:36.000000","146","FlyHigh"
"2009-11-30 01:33:36.000000","166","FlyHigh"
"2009-12-31 01:33:36.000000","171","FlyHigh"
"2010-01-31 01:33:36.000000","180","FlyHigh"
"2010-03-01 01:33:36.000000","193","FlyHigh"
"2010-04-01 01:33:36.000000","181","FlyHigh"
"2010-05-01 01:33:36.000000","183","FlyHigh"
"2010-06-01 01:33:36.000000","218","FlyHigh"
"2010-07-01 01:33:36.000000","230","FlyHigh"
"2010-08-01 01:33:36.000000","242","FlyHigh"
"2010-09-01 01:33:36.000000","209","FlyHigh"
"2010-10-01 01:33:36.000000","191","FlyHigh"
"2010-11-01 01:33:36.000000","172","FlyHigh"
"2010-12-01 01:33:36.000000","194","FlyHigh"
"2011-01-01 01:33:36.000000","196","FlyHigh"
"2011-02-01 01:33:36.000000","196","FlyHigh"
"2011-03-01 01:33:36.000000","236","FlyHigh"
"2011-04-01 01:33:36.000000","235","FlyHigh"
"2011-05-01 01:33:36.000000","229","FlyHigh"
"2011-06-01 01:33:36.000000","243","FlyHigh"
"2011-07-01 01:33:36.000000","264","FlyHigh"
"2011-08-01 01:33:36.000000","272","FlyHigh"
"2011-09-01 01:33:36.000000","237","FlyHigh"
"2011-10-01 01:33:36.000000","211","FlyHigh"
"2011-11-01 01:33:36.000000","180","FlyHigh"
"2011-12-01 01:33:36.000000","201","FlyHigh"
"2012-01-01 01:33:36.000000","204","FlyHigh"
"2012-02-01 01:33:36.000000","188","FlyHigh"
"2012-02-29 01:33:36.000000","235","FlyHigh"
"2012-03-31 01:33:36.000000","227","FlyHigh"
"2012-04-30 01:33:36.000000","234","FlyHigh"
"2012-05-31 01:33:36.000000","264","FlyHigh"
"2012-06-30 01:33:36.000000","302","FlyHigh"
"2012-07-31 01:33:36.000000","293","FlyHigh"
"2012-08-31 01:33:36.000000","259","FlyHigh"
"2012-09-30 01:33:36.000000","229","FlyHigh"
"2012-10-31 01:33:36.000000","203","FlyHigh"
"2012-11-30 01:33:36.000000","229","FlyHigh"
"2012-12-31 01:33:36.000000","242","FlyHigh"
"2013-01-31 01:33:36.000000","233","FlyHigh"
"2013-02-28 01:33:36.000000","267","FlyHigh"
"2013-03-31 01:33:36.000000","269","FlyHigh"
"2013-04-30 01:33:36.000000","270","FlyHigh"
"2013-05-31 01:33:36.000000","315","FlyHigh"
"2013-06-30 01:33:36.000000","364","FlyHigh"
"2013-07-31 01:33:36.000000","347","FlyHigh"
"2013-08-31 01:33:36.000000","312","FlyHigh"
"2013-09-30 01:33:36.000000","274","FlyHigh"
"2013-10-31 01:33:36.000000","237","FlyHigh"
"2013-11-30 01:33:36.000000","278","FlyHigh"
"2013-12-31 01:33:36.000000","284","FlyHigh"
"2014-01-31 01:33:36.000000","277","FlyHigh"
"2014-03-01 01:33:36.000000","317","FlyHigh"
"2014-04-01 01:33:36.000000","313","FlyHigh"
"2014-05-01 01:33:36.000000","318","FlyHigh"
"2014-06-01 01:33:36.000000","374","FlyHigh"
"2014-07-01 01:33:36.000000","413","FlyHigh"
"2014-08-01 01:33:36.000000","405","FlyHigh"
"2014-09-01 01:33:36.000000","355","FlyHigh"
"2014-10-01 01:33:36.000000","306","FlyHigh"
"2014-11-01 01:33:36.000000","271","FlyHigh"
"2014-12-01 01:33:36.000000","306","FlyHigh"
"2015-01-01 01:33:36.000000","315","FlyHigh"
"2015-02-01 01:33:36.000000","301","FlyHigh"
"2015-03-01 01:33:36.000000","356","FlyHigh"
"2015-04-01 01:33:36.000000","348","FlyHigh"
"2015-05-01 01:33:36.000000","355","FlyHigh"
"2015-06-01 01:33:36.000000","422","FlyHigh"
"2015-07-01 01:33:36.000000","465","FlyHigh"
"2015-08-01 01:33:36.000000","467","FlyHigh"
"2015-09-01 01:33:36.000000","404","FlyHigh"
"2015-10-01 01:33:36.000000","347","FlyHigh"
"2015-11-01 01:33:36.000000","305","FlyHigh"
"2015-12-01 01:33:36.000000","336","FlyHigh"
"2016-01-01 01:33:36.000000","340","FlyHigh"
"2016-02-01 01:33:36.000000","318","FlyHigh"
"2016-02-29 01:33:36.000000","362","FlyHigh"
"2016-03-31 01:33:36.000000","348","FlyHigh"
"2016-04-30 01:33:36.000000","363","FlyHigh"
"2016-05-31 01:33:36.000000","435","FlyHigh"
"2016-06-30 01:33:36.000000","491","FlyHigh"
"2016-07-31 01:33:36.000000","505","FlyHigh"
"2016-08-31 01:33:36.000000","404","FlyHigh"
"2016-09-30 01:33:36.000000","359","FlyHigh"
"2016-10-31 01:33:36.000000","310","FlyHigh"
"2016-11-30 01:33:36.000000","337","FlyHigh"
"2016-12-31 01:33:36.000000","360","FlyHigh"
"2017-01-31 01:33:36.000000","342","FlyHigh"
"2017-02-28 01:33:36.000000","406","FlyHigh"
"2017-03-31 01:33:36.000000","396","FlyHigh"
"2017-04-30 01:33:36.000000","420","FlyHigh"
"2017-05-31 01:33:36.000000","472","FlyHigh"
"2017-06-30 01:33:36.000000","548","FlyHigh"
"2017-07-31 01:33:36.000000","559","FlyHigh"
"2017-08-31 01:33:36.000000","463","FlyHigh"
"2017-09-30 01:33:36.000000","407","FlyHigh"
"2017-10-31 01:33:36.000000","362","FlyHigh"
"2017-11-30 01:33:36.000000","405","FlyHigh"
"2017-12-31 01:33:36.000000","417","FlyHigh"
"2018-01-31 01:33:36.000000","391","FlyHigh"
"2018-03-01 01:33:36.000000","419","FlyHigh"
"2018-04-01 01:33:36.000000","461","FlyHigh"
"2018-05-01 01:33:36.000000","472","FlyHigh"
"2018-06-01 01:33:36.000000","535","FlyHigh"
"2018-07-01 01:33:36.000000","622","FlyHigh"
"2018-08-01 01:33:36.000000","606","FlyHigh"
"2018-09-01 01:33:36.000000","508","FlyHigh"
"2018-10-01 01:33:36.000000","461","FlyHigh"
"2018-11-01 01:33:36.000000","390","FlyHigh"
"2018-12-01 01:33:36.000000","432","FlyHigh"

1.2. データセットの内容を確認する

TD_PLOT関数はテーブルの内容からグラフを作成しイメージデータを返します。
次のクエリは TD_PLOT を利用してグラフを生成します。

EXECUTE FUNCTION
TD_Plot
(
    SERIES_SPEC
    (
        TABLE_NAME(DEMO_AirPassengers.airpassengers),
        ROW_AXIS(TIMECODE("Date")),
        SERIES_ID(seriesID),
        PAYLOAD (FIELDS("Passengers"),CONTENT(REAL))
    ),
    FUNC_PARAMS
    (
        PLOTS[(
            TYPE('line'),
            LEGEND('upper left'),
            TITLE('Number of Passengers Travelling Monthly')
        )],
        IMAGE('png')
    )
);

2. ARIMAモデルを利用した将来の航空機の搭乗者数を予測する

2.1. 検定ステップ

2.1.(1). ディッキー・フラー検定で定常性を検定する

ディッキー・フラー検定は時系列データの平均と分散が異なる期間にわたって一定であるかどうかを判断するために広く使用されています。

時系列データに統計モデルを適用する前に始めにデータが一定である事を確認する必要があります。
a) 時系列データは一定の平均値を持つ必要があります。
b) 時系列データは一定の分散または標準偏差を持つ必要があります。
c) 自己共分散は時間に依存してはなりません。

次のクエリは TD_DICKEY_FULLER を使用して 定常性をチェック しています。

TD_DICKEY_FULLER関数

EXECUTE FUNCTION
TD_DICKEY_FULLER(
    SERIES_SPEC(
        TABLE_NAME(DEMO_AirPassengers.airpassengers),
        ROW_AXIS(TIMECODE("Date")),
        SERIES_ID("seriesID"),
        PAYLOAD(
            FIELDS("Passengers"),
            CONTENT(REAL)
        )
    ),
    FUNC_PARAMS(
        ALGORITHM('TREND')
    )
);

seriesID	ROW_I	NUM_SAMPLES	ALGORITHM	T_STAT	P_VALUE	NULL_HYP
FlyHigh	0	144	TREND	-4.639196964346928	0.0008857695636920808	REJECT

ACCEPTは帰無仮説が受け入れられたこと(結果は同じである)を意味します。
単位根(平均や分散が時間とともに変化する)が無く 定常的です。
REJECTは帰無仮説が棄却されたこと(結果は同じでない)を意味します。
単位根(平均や分散が時間とともに変化する)があり 非定常的です。
NULL_HYP列を見ると時系列は非定常と言えます。

2.1.(2). TD_DIFFで時系列を定常化する(d)

TD_DIFFは定常、非定常、季節性の時系列データを差分化した時系列に変換します。
変換されたデータは指定されたテーブルに出力されます。
ここではデータの周期性を考慮してパラメータであるラグは 12(12ヵ月)に設定します。
次のクエリは時系列を TD_DIFF を利用して差分時系列に変換します。

TD_DIFF関数

EXECUTE FUNCTION
COLUMNS(OUT_Passengers AS Passengers)
INTO VOLATILE ART(diff1_air)
TD_DIFF(
    SERIES_SPEC(
            TABLE_NAME(DEMO_AirPassengers.airpassengers),
            ROW_AXIS(TIMECODE("Date")),
            SERIES_ID("seriesID"),
            PAYLOAD(
                FIELDS("Passengers"),
                CONTENT(REAL)
            )
    ),
    FUNC_PARAMS(
          LAG(12),
          DIFFERENCES(4),
          SEASONAL_MULTIPLIER(0)
    )
);

SELECT TOP 5 * FROM diff1_air ORDER BY ROW_I;

seriesID	ROW_I	Passengers
FlyHigh	0	34
FlyHigh	1	-10
FlyHigh	2	100
FlyHigh	3	78
FlyHigh	4	150

作成されたテーブルを ディッキー・フラー検定 で定常であるかどうかをチェックします。時系列が定常化するまで TD_DIFF を再帰的に繰り返します。

TD_DICKEY_FULLER関数

EXECUTE FUNCTION
TD_DICKEY_FULLER(
    SERIES_SPEC(
        TABLE_NAME(diff1_air),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID("seriesID"),
        PAYLOAD(
            FIELDS("Passengers"),
            CONTENT(REAL)
        )
    ),
    FUNC_PARAMS(
        ALGORITHM('TREND')
    )
);

seriesID	ROW_I	NUM_SAMPLES	ALGORITHM	T_STAT	P_VALUE	NULL_HYP
FlyHigh	0	96	TREND	-3.1342412241637474	0.09831876940084541	ACCEPT

NULL_HYP を見ると単位根(平均や分散が時間とともに変化する)は棄却され時系列は定常であることがわかります。
この時系列を一次微分することで定常系列が得られます。したがって、微分次数の値は D = 1 となり ARIMA_ESTIMATEでさらに使用されます。

2.1.(3). 時系列の自己相関を調べる(Q)

TD_ACFは時系列の自己相関または自己共分散を計算します。
自己相関と自己共分散は時系列が時間的または空間的な遅れによって遅延したときにそれ自身とどのように相関または共分散するかを示します。
ここでは最大12タイムステップのラグで自己相関を確認します。

次のクエリーは TD_ACF を使って自己共分散を計算します。

TD_ACF関数

EXECUTE FUNCTION
COLUMNS(OUT_Passengers AS Auto_Correlation)
INTO VOLATILE ART(ACFDemo)
TD_ACF(
    SERIES_SPEC(
        TABLE_NAME(diff1_air),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID("seriesID"),
        PAYLOAD(
            FIELDS("Passengers"),
            CONTENT(REAL)
        )
    ),
    FUNC_PARAMS(
        MAXLAGS(12),
        UNBIASED(0),    -- Use 0 for Jenkins-Watts formula, or 1 for BoxJenkins formula
        FUNC_TYPE(0),   -- Use 0 for autocorrelation, or 1 for autocovariance
        DEMEAN(1),
        QSTAT(0),
        ALPHA(0.05)
    )
);

SELECT TOP 5 * FROM ACFDemo ORDER BY ROW_I;

seriesID	ROW_I	Auto_Correlation	CONF_OFF_Passengers	CONF_LOW_Passengers	CONF_HI_Passengers
FlyHigh	0	1	0	1	1
FlyHigh	1	0.736849780698874	0.2000379865148046	0.5368117941840693	0.9368877672136786
FlyHigh	2	0.6092948162493547	0.2889074338100545	0.32038738243930015	0.8982022500594091
FlyHigh	3	0.41962593972958917	0.3364193839941808	0.08320655573540836	0.75604532372377
FlyHigh	4	0.3221378707614005	0.35674953103167856	-0.034611660270278066	0.678887401793079

グラフで確認する。

TD_Plot関数

EXECUTE FUNCTION
TD_Plot
(
    SERIES_SPEC
    (
        TABLE_NAME(ACFDemo),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID(seriesID),
        PAYLOAD (FIELDS(Auto_Correlation, CONF_OFF_Passengers),CONTENT(MULTIVAR_REAL))
    ),
    FUNC_PARAMS
    (
        PLOTS[(
            TYPE('corr')
           ,LEGEND('best') 
        )],
        IMAGE('png')
    )
);

移動平均または Qの値を得るには ACFプロットからの値が有意限界のすぐ外側にあるラグ(ROW_Iの値)が必要です。
グラフを見ると ROW_I = 3における自己相関値は信頼帯の外側にあり信頼帯にかなり近い値です。
したがって 移動平均線または Qの値＝ 3 とすることは許容範囲内です。

2.1.(4). 時系列の偏自己相関を調べる (P)

TD_PACF関数はモデル化された関数が定常的であるかどうかについて洞察します。
部分自己相関は時系列サンプルポイント間の相関の程度を測定します。
ここでは最大12タイムステップのラグで偏自己相関をチェックします。

TD_PACF関数

EXECUTE FUNCTION
COLUMNS(OUT_Passengers AS Partial_Auto_Correlation)
INTO VOLATILE ART(PACFDemo)
TD_PACF (
    SERIES_SPEC(
        TABLE_NAME(diff1_air),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID(seriesID),
        PAYLOAD(
            FIELDS("Passengers"),
            CONTENT(REAL)
        )
    ) ,
    FUNC_PARAMS(
        MAXLAGS(12),
        UNBIASED(0),    -- Use 0 for Jenkins-Watts formula, or 1 for BoxJenkins formula
        ALGORITHM(LEVINSON_DURBIN),
        ALPHA(0.05)
    )
);

SELECT TOP 5 * FROM PACFDemo ORDER BY ROW_I;

seriesID	ROW_I	Partial_Auto_Correlation	CONF_OFF_Passengers	CONF_LOW_Passengers	CONF_HI_Passengers
FlyHigh	0	1	0.2000379865148046	1	1
FlyHigh	1	0.736849780698874	0.2000379865148046	0.5368117941840693	0.9368877672136786
FlyHigh	2	0.145163261004824	0.2000379865148046	-0.0548747255099806	0.34520124751962855
FlyHigh	3	-0.1589643249713953	0.2000379865148046	-0.3590023114861999	0.0410736615434093
FlyHigh	4	0.036264086522446906	0.2000379865148046	-0.1637738999923577	0.23630207303725148

グラフで確認します。

EXECUTE FUNCTION
TD_Plot
(
    SERIES_SPEC
    (
        TABLE_NAME(PACFDemo),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID(seriesID),
        PAYLOAD (FIELDS(Partial_Auto_Correlation, CONF_OFF_Passengers),CONTENT(MULTIVAR_REAL))
    ),
    FUNC_PARAMS
    (
        PLOTS[(
            TYPE('corr')
           ,LEGEND('best') 
        )],
        IMAGE('png')
    )
);

自己回帰ラグの値つまり Pを求めるには PACFプロットからの値が有意限界のすぐ外に落ちるラグ(Row_Iの値)が必要です。
グラフを見るとROW_I = 1の部分自己相関の値は有意水準から外れていることがわかります。
したがって自己回帰ラグの値は P = 1 となります。

2.2. モデル作成ステップ

2.2.(1) ARIMAモデルの係数を取得

TD_ARIMAESTIMATE関数は ARIMAモデルに対応する係数を推定し既存のARIMAモデルに系列を適合させます。
この関数は「適合度」と適合操作の残差も提供することができます。
TD_ARIMAVALIDATE関数とTD_ARIMAFORECAST関数の入力として使用されるモデル層を生成する関数です。この関数は一変量系列を対象としています。

MODEL_ORDER(P, d, Q)にはこれまでのステップで推定した P、d、Q パラメータを使用して MODEL_ORDER(1, 1, 3)とします。
出力結果は ART(出力テーブル) に格納されます。
適合率は 80とします。ARIMAモデルがデータの80%でトレーニングし残りの20%のデータはモデルの検証に使用します。

次のクエリは TD_ARIMAESTIMATE を使ってARIMAモデルに対応する係数を推定し既存のARIMAモデルと系列を適合させます。

TD_ARIMAESTIMATE関数

EXECUTE FUNCTION INTO VOLATILE ART(ART_EST)
TD_ARIMAESTIMATE(
    SERIES_SPEC(
        TABLE_NAME(DEMO_AirPassengers.airpassengers),
        ROW_AXIS(TIMECODE("Date")),
        SERIES_ID(seriesID),
        PAYLOAD(
            FIELDS("Passengers"),
            CONTENT(REAL))),
     FUNC_PARAMS(
        NONSEASONAL(MODEL_ORDER(1, 1, 3)),
        SEASONAL(MODEL_ORDER(1, 1, 3), PERIOD(12)),
        CONSTANT(1), COEFF_STATS(1), FIT_METRICS(1),
        RESIDUALS(1), ALGORITHM(CSS_MLE),  FIT_PERCENTAGE(80)
    )
);

2.2.(2) 残差の抽出

TD_EXTRACT_RESULTS関数は ART(出力テーブル)に格納されている補助結果セットを取得します。
ここでは ARTから残差を抽出します。
分析結果テーブルには異なるデータを格納する複数のレイヤーがあります。
デフォルトのレイヤーにはモデル情報が格納されています。
ARTFITRESIDUALSレイヤー は実際値、計算値、残差の情報を持っています。ARTFITMETADATAレイヤー はパフォーマンス・メトリクスを持ちます。

次のクエリは作成したテーブルに TD_EXTRACT_RESULTS を使って ARTFITRESIDUALSレイヤーを抽出し格納します。

TD_EXTRACT_RESULTS関数

CREATE TABLE AR_RESIDUALS AS (
    EXECUTE FUNCTION
    TD_EXTRACT_RESULTS(
        ART_SPEC(
            TABLE_NAME(ART_EST),
            LAYER(ARTFITRESIDUALS)
        )
    )
) WITH DATA;

SELECT TOP 5 * FROM AR_RESIDUALS ORDER BY ROW_I;

seriesID	ROW_I	ACTUAL_VALUE	CALC_VALUE	RESIDUAL
FlyHigh	0	112	111.93533678259698	0.06466321740301692
FlyHigh	1	118	117.9664341620197	0.033565837980311194
FlyHigh	2	132	131.96619386853047	0.03380613146952975
FlyHigh	3	129	128.97744816594982	0.022551834050185737
FlyHigh	4	121	120.9892461371173	0.010753862882700261

この値はARIMAモデルの実績値、計算値、残差です。
実績値は搭乗者数を示しています。
計算値は推定段階でモデルが学習した内容を示しています。
残差は実際の値と計算値の差です。

次のクエリは作成したテーブルに TD_EXTRACT_RESULTS を使って ARTFITMETADATAレイヤを抽出し格納します。

TD_EXTRACT_RESULTS関数

SELECT * FROM (
    EXECUTE FUNCTION
    TD_EXTRACT_RESULTS(
        ART_SPEC(
            TABLE_NAME(ART_EST),
            LAYER(ARTFITMETADATA)
        )
    )
) AS T;

seriesID	ROW_I	NUM_SAMPLES	VAR_COUNT	R_SQUARE	R_ADJ_SQUARE	STD_ERROR	STD_ERROR_DF	ME	MAE	MSE	MPE	MAPE	FSTAT_CALC	P_VALUE	NUM_DF	DENOM_DF	SIGNIFICANCE_LEVEL	F_CRITICAL	F_CRITICAL_P	NULL_HYPOTH
FlyHigh	0	115	8	0.991091251376211	0.9905084360456827	75.642224556571	113	0.6063622781093305	6.422070579408627	74.32670760776107	0.2532102004518045	2.677695324371721	1700.5236469636197	1.379855387071475e-106	7	107	0.05	2.0963213718883407	0.05	REJECT

この結果は ARIMAモデルがどの程度うまく学習できたかを示す性能指標を示しています。
例えばR_SQUAREDの値は0.99です。これはモデルがデータによく適合していることを示唆しています。
R_SQUAREDの値が高いほどモデルがデータによく適合していることを意味します。R_SQUAREDの値は 0から1までの範囲です。

2.2.(3) プロット用テーブルPLOT_ESTIMATEの作成

PLOT_ESTIMATEテーブルの作成

CREATE TABLE PLOT_ESTIMATE (DatasetID VARCHAR(10), ROW_I BIGINT, FIT_MAGNITUDE FLOAT);
INSERT INTO PLOT_ESTIMATE SELECT 'FlyHigh', ROW_I, ACTUAL_VALUE FROM AR_RESIDUALS WHERE ROW_I>1; 
INSERT INTO PLOT_ESTIMATE SELECT 'ESTIMATED', ROW_I, CALC_VALUE FROM AR_RESIDUALS WHERE ROW_I>1;

SELECT TOP 5 * FROM PLOT_ESTIMATE ORDER BY ROW_I;

DatasetID	ROW_I	FIT_MAGNITUDE
ESTIMATED	2	131.96619386853047
FlyHigh	2	132
ESTIMATED	3	128.97744816594982
FlyHigh	3	129
FlyHigh	4	121

実値と予測値の比較をグラフで確認する。

TD_Plot関数

EXECUTE FUNCTION
TD_Plot
(
    SERIES_SPEC(
        TABLE_NAME(PLOT_ESTIMATE),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID(DataSetID),
        ID_SEQUENCE('[{"DatasetID":"FlyHigh"},{"DatasetID":"ESTIMATED"}]'),
        PAYLOAD(
            FIELDS(FIT_MAGNITUDE),
            CONTENT(REAL)
        )
    ),
    FUNC_PARAMS
    (
        WIDTH(1920),
        HEIGHT(1080),
        TITLE('ARIMA ESTIMATE'),
        PLOTS[
            (
                TITLE ('ORIGINAL and ESTIMATED SERIES'),
                GRID(FORMAT('-')),
                TYPE('line'),
                SERIES[
                       (
                        ID(1),
                        FORMAT('r--')
                       ),
                       (
                        ID(2),
                        FORMAT('b-')
                       )
                     ],
                MARKER('o'),
                LEGEND('best'),
                XLABEL('X SeqNo'),
                YLABEL('Y Magnitude')
            )
        ]
    )
);

赤線は実際の乗客数青線は推定乗客数を示しています。
このグラフはARIMAモデルがトレーニングデータセットに対してどの程度学習したかを示しています。

2.3. 検証ステップ

2.3.(1) 検証

TD_ARIMAVALIDATE関数はデータ科学者にモデル選択と生成された残差のためのメトリクスコレクションを提供し複数のモデル検証テストを実行することができます。TD_ARIMAVALIDATE関数は季節性・非季節性の自己回帰（AR）、移動平均（MA）、ARIMAモデルについてサンプル内予測を実行することができます。
また、拡張Box Jenkins季節性ARIMAモデル式もサポートしています。

推定ステップの出力を使ってモデルの検証を行います。
データセットのtrain-validateの分割は80：20です。
したがって、推定されたモデルを検証するためにデータの20％が使用されることになります。

TD_ARIMAVALIDATE関数

EXECUTE FUNCTION 
INTO VOLATILE ART(AR_VALIDATE)
TD_ARIMAVALIDATE(
    ART_SPEC(TABLE_NAME(ART_EST)),
    FUNC_PARAMS(
        FIT_METRICS(1),
        RESIDUALS(1)
    )
);

2.3.(2) 残差の抽出

TD_EXTRACT_RESULTS関数はARTに格納されている補助結果セットを取得します。
ここでは、検証ステップのARTテーブル出力から残差を抽出します。

AR_VALIDATE_RESIDUALSテーブルの作成

CREATE TABLE AR_VALIDATE_RESIDUALS AS (
    EXECUTE FUNCTION 
    TD_EXTRACT_RESULTS(
        ART_SPEC(
            TABLE_NAME(AR_VALIDATE),
            LAYER(ARTFITRESIDUALS)
        )
    )
) WITH DATA;

SELECT TOP 5 * FROM AR_VALIDATE_RESIDUALS ORDER BY ROW_I;

seriesID	ROW_I	ACTUAL_VALUE	CALC_VALUE	RESIDUAL
FlyHigh	102	505	504.71541606026983	0.2845839397301829
FlyHigh	103	404	403.9536743499105	0.04632565008948548
FlyHigh	104	359	359.00708485101035	-0.007084851010358043
FlyHigh	105	310	310.0491891859232	-0.0491891859232049
FlyHigh	106	337	337.01793845433355	-0.01793845433357069

検証フェーズのARIMAモデルの実績値、計算値、残差です。
実測値は未公開データ（検証データ）の乗客数です。
計算値は未公開データに対するARIMAモデルによる予測値です。

検証フェーズの出力であるARTから再びメタデータを引き出します。

TD_EXTRACT_RESULTS関数

SELECT * FROM (
    EXECUTE FUNCTION
    TD_EXTRACT_RESULTS(
        ART_SPEC(
            TABLE_NAME(AR_VALIDATE),
            LAYER(ARTFITMETADATA)
        )
    )
) AS T;

検証フェーズのパフォーマンスメトリクスを示します。
これらのメトリクスは未見のデータセット、すなわち検証用データセットにおいて、我々のモデルがどの程度優れた性能を発揮するかを分析するのに役立ちます。
例えばこの出力から得られるR_SQUAREDの値は0.97であり、これは良い値です。R_SQUAREDの値が高いほど優れたモデルであることを意味します。
R_SQUARED値の範囲は0から1までです。

2.3.(3) PLOT_VALIDATEテーブルを作成する

PLOT_VALIDATEテーブルの作成

CREATE TABLE PLOT_VALIDATE (DatasetID VARCHAR(10), ROW_I BIGINT, FIT_MAGNITUDE FLOAT);
INSERT INTO PLOT_VALIDATE SELECT 'FlyHigh', ROW_I, ACTUAL_VALUE FROM AR_VALIDATE_RESIDUALS WHERE ROW_I>0; 
INSERT INTO PLOT_VALIDATE SELECT 'PREDICTED', ROW_I, CALC_VALUE FROM AR_VALIDATE_RESIDUALS WHERE ROW_I>0;

EXECUTE FUNCTION
TD_Plot
(
    SERIES_SPEC(
        TABLE_NAME(PLOT_VALIDATE),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID(DataSetID),
        ID_SEQUENCE('[{"DatasetID":"FlyHigh"},{"DatasetID":"PREDICTED"}]'),
        PAYLOAD(
            FIELDS(FIT_MAGNITUDE),
            CONTENT(REAL)
        )
    ),
    FUNC_PARAMS
    (
        WIDTH(1920),
        HEIGHT(1080),
        TITLE('ARIMA VALIDATE'),
        PLOTS[
            (
                TITLE ('ORIGINAL and PREDICTED SERIES'),
                GRID(FORMAT('-')),
                TYPE('line'),
                SERIES[
                       (
                        ID(1),
                        FORMAT('r--')
                       ),
                       (
                        ID(2),
                        FORMAT('b-')
                       )
                     ],
                MARKER('o'),
                LEGEND('best'),
                XLABEL('X SeqNo'),
                YLABEL('Y Magnitude')
            )
        ]
    )
);

赤線が実際の搭乗者数、青線が予測搭乗者数です。
このグラフは、検証データに対してARIMAモデルがどの程度予測できたかを示しています。

2.4. 予測ステップ

2.4.(1) 予測

TD_ARIMAFORECAST関数は、TD_ARIMAESTIMATE関数からフィッティングされたモデルに基づいて、ユーザーが定義した数の期間を予測するために使用されます。

ここでは、次のセルで、推定・検証されたモデルを使用して、その後の6期間、つまり今後6ヶ月間の乗客数を予測します。

EXECUTE FUNCTION INTO VOLATILE ART(ARMA_FORECAST)
TD_ARIMAFORECAST(
           ART_SPEC(TABLE_NAME(AR_VALIDATE)),
           FUNC_PARAMS(FORECAST_PERIODS(6)));

SELECT * FROM ARMA_FORECAST;

seriesID	ROW_I	FORECAST_VALUE	LO_80	HI_80	LO_95	HI_95
FlyHigh	0	448.80286816861485	437.05108030679287	460.55465603043683	430.8300655474117	466.775670789818
FlyHigh	1	422.45446369929124	407.3437819074814	437.5651454911011	399.3446778088999	445.56424958968256
FlyHigh	2	470.4832626708105	452.0389194713592	488.92760587026186	442.27508331127655	498.6914420303445
FlyHigh	3	506.76582797603453	486.9446633054949	526.5869926465742	476.4519825820672	537.0796733700018
FlyHigh	4	530.0389185693377	509.4219846866439	550.6558524520316	498.50804959136406	561.5697875473114
FlyHigh	5	570.6776110806936	549.4849395681031	591.8702825932842	538.2662276733071	603.0889944880802

この結果は今後6ヶ月間の予測値を示しています。
信頼度80％と95％の予測値も出ていることに注目してください。

2.4.(2) PLOT_FORECAST表を作成する。

PLOT_FORECASTテーブルの作成

CREATE TABLE PLOT_FORECAST (DatasetID VARCHAR(16), ROW_I BIGINT, FORECAST_MAGNITUDE FLOAT);

INSERT INTO PLOT_FORECAST   SELECT 'FORECASTED', ROW_I, FORECAST_VALUE FROM ARMA_FORECAST; 
INSERT INTO PLOT_FORECAST   SELECT 'UPPER_BOUND', ROW_I, HI_80 FROM ARMA_FORECAST ; 
INSERT INTO PLOT_FORECAST   SELECT 'LOWER_BOUND', ROW_I, LO_80 FROM ARMA_FORECAST ;

EXECUTE FUNCTION
TD_Plot
(
    SERIES_SPEC(
        TABLE_NAME(PLOT_FORECAST),
        ROW_AXIS(SEQUENCE(ROW_I)),
        SERIES_ID(DataSetID),
        ID_SEQUENCE('[{"DatasetID":"FORECASTED"},{"DatasetID":"UPPER_BOUND"},{"DatasetID":"LOWER_BOUND"}]'),
        PAYLOAD(
            FIELDS(FORECAST_MAGNITUDE),
            CONTENT(REAL)
        )
    ),
    FUNC_PARAMS
    (
        WIDTH(1920),
        HEIGHT(1080),
        TITLE('ARIMA FORECAST'),
        PLOTS[
            (
                TITLE ('Forecast'),
                GRID(FORMAT('-')),
                TYPE('line'),
                SERIES[
                       (
                        ID(1),
                        FORMAT('r--')
                       ),
                       (
                        ID(2),
                        FORMAT('b-')
                       ),
                        (
                        ID(3),
                        FORMAT('b-')
                       )
                     ],
                MARKER('o'),
                LEGEND('best'),
                XLABEL('X SeqNo'),
                YLABEL('Y Magnitude')
            )
        ]
    )
);

赤線は今後6ヶ月間の予測搭乗者数、青線は信頼度80％の上下の信頼区間です。

3. 結論

航空旅客データセットでARIMAモデルの学習と検証を行いましたが、結果は実際のデータと密接に一致しています。推定と検証の段階で計算された適合度メトリクスも、このモデルが予測のためによく訓練されているという我々の理解に共鳴しています。

おわりに

警告
この本書はTeradata Vantageドキュメンテーションよりトピックに必要な情報を抜粋したものです。掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。正確な内容については、原本をご参照下さい。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。

Teradata Vantageへのお問合せ

Teradata Vantage へのお問合せ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up