Python 時系列分析 1,000本ノック– ノック85: ADF検定 –

問題
答え
解説

次の Python コードの検定における帰無仮説は何ですか？

Python コード:

import numpy as np
from statsmodels.tsa.stattools import adfuller

np.random.seed(42)
data = np.random.randn(200).cumsum()

for l,d in [
    ("原系列",data),
    ("1階差分",np.diff(data))
    ]:
    s,p,lag,_,c,_ = adfuller(d, autolag='AIC')
    print(f"[{l}] ADF統計量:{s:.4f} p値:{p:.4f}"
          f" ラグ:{lag} 臨界値(5%):{c['5%']:.4f}")

回答の選択肢:
(A) データは定常である
(B) データは非定常である（単位根を持つ）
(C) データのトレンドは線形である
(D) データの自己相関はゼロである

出力例:

[原系列]  ADF統計量:-2.3073  p値:0.1696  ラグ:0  臨界値(5%):-2.8762
[1階差分]  ADF統計量:-14.6918  p値:0.0000  ラグ:0  臨界値(5%):-2.8763

正解: (B)
ADF検定（拡張ディッキー＝フラー検定）の帰無仮説は「データは非定常である（単位根を持つ）」です。原系列ではp値=0.1696でありADF統計量も臨界値より大きいため帰無仮説を棄却できず、非定常と判断されます。一方、1階差分後はp値=0.0000で帰無仮説が棄却され、定常であると判断されます。これは、元データがランダムウォーク（1階差分で定常になる過程）であることと整合しています。

コードの解説

このコードは、時系列データとその1階差分に対してADF検定を実行し、定常性を判定しています。

import numpy as np
from statsmodels.tsa.stattools import adfuller

np.random.seed(42)
data = np.random.randn(200).cumsum()

for l,d in [
    ("原系列",data),
    ("1階差分",np.diff(data))
    ]:
    s,p,lag,_,c,_ = adfuller(d, autolag='AIC')
    print(f"[{l}] ADF統計量:{s:.4f} p値:{p:.4f}"
          f" ラグ:{lag} 臨界値(5%):{c['5%']:.4f}")

簡単に説明します。

ライブラリのインポート

numpy：数値計算を行うためのライブラリ。ここでは乱数生成や差分処理に使用しています。
statsmodels.tsa.stattools.adfuller：ADF検定（Augmented Dickey-Fuller検定）を実行する関数です。

データの生成

np.random.seed(42)：乱数のシードを固定し、結果を再現可能にします。
np.random.randn(200).cumsum()：標準正規乱数の累積和を計算し、ランダムウォークを生成しています。ランダムウォークは非定常な時系列の代表例であり、1階差分を取ると定常過程（ホワイトノイズ）になります。

ADF検定の実行

adfuller(d, autolag='AIC')：ADF検定を実行します。autolag='AIC'によりAICを基準に最適なラグ次数が自動選択されます。戻り値は6つです。
- s：ADF検定統計量。値が小さい（負の方向に大きい）ほど、帰無仮説に反する証拠が強いことを意味します。
- p：p値。有意水準（例: 0.05）を下回れば帰無仮説を棄却できます。
- lag：自己相関を補正するために使用されたラグ数。
- c：各有意水準に対応する臨界値の辞書。
原系列とnp.diff(data)（1階差分）の両方に対して検定を実行し、差分処理による定常化の効果を確認しています。

選択肢の解説