RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

ARIMA

概要

この演算子は、選択した時系列属性のARIMAモデルをトレーニングします。

詳細

ARIMAは自己回帰統合移動平均の略です。通常、時系列の予測にはARIMAモデルが使用されます。

ARIMAモデルは、3つの次数パラメーターp、d、qによって定義されます。 pは、モデル内の自己回帰項の数を指定します。 dは、時系列値に適用される微分の数を指定します。 qは、モデル内の移動平均項の数を指定します。

ARIMAモデルは統合されたARMAモデルです。 ARMAモデルは、時系列のラグ付き時系列値(自己回帰項)の加重和とラグ付き残差の加重和によって時系列を記述します。これらの残差は、通常の分散ノイズプロセスに由来します。 「統合」は、ARMAモデルの値が統合されていることを示します。これは、ARMAモデルが記述する元の時系列値が区別されていることと同じです。

ARIMA演算子は、時系列を記述するモデルの条件付き対数尤度を最大化するp + q係数(および推定定数がtrueの場合は定数)を見つけることにより、与えられたp、d、qを使用してARIMAモデルを時系列に適合させます。最適化には、LBFGS(Limited-memory Broyden-Fletcher-Foldfarb-Shanno)アルゴリズムが使用されます。

p、d、qの値を選択する場合、パラメーターの数(p、d、qの合計)が次の長さのオーダーでない場合、条件付き対数尤度は正確な対数尤度の良い推定にすぎないことが重要です。時系列。したがって、パラメータの数は時系列の長さよりもかなり小さくする必要があります。

訓練されたARIMAモデルが与えられた時系列をどれだけうまく記述するかは、多くの場合、Akaikes情報基準( AIC )、Bayesian情報基準( BIC )または修正されたAkaikes情報基準( AICC )で計算されます。 ArimaTrainerオペレーターは、これらのパフォーマンス測定値を計算し、計算された値を含むパフォーマンスベクトルを出力します。時系列を適切に記述するARIMAモデルには、小さな情報基準があります。

この演算子は、数値時系列でのみ機能します。

分化

この演算子は他のモデリング演算子に似ていますが、時系列データで動作するように特別に設計されています。これが意味することの1つは、予測モデルがトレーニングされた同じデータに適用されるべきであるということです。

Apply Forecast

この演算子は、トレーニング済みの予測モデル(ARIMAモデルなど)を受け取り、トレーニングされた時系列の予測を作成します。

Default Forecast

この演算子は、予測を実行するために、時系列データのデフォルト予測モデル(単一値を予測)をトレーニングします。

Function and Seasonal Component Forecast

この演算子は、予測を実行するために、時系列データで関数と季節予測モデル(近似関数と季節成分の値を組み合わせたもの)をトレーニングします。

Holt-Winters

この演算子は、予測を実行するために、時系列データでHolt-Wintersモデル(三重指数平滑法)をトレーニングします。

入力

  • サンプルセット (IOObject)時系列データを属性として含むExampleSet。

出力

  • 予測モデル(IOObject)指定された時系列属性に適合したARIMAモデル(予測モデル)。元の時系列値も含まれます。
  • パフォーマンス(パフォーマンスベクトル)このポートは、適合ARIMAモデルのパフォーマンスベクトルを提供します。計算されたパフォーマンスは、AIC(赤池情報量基準)、BIC(ベイジアン情報量基準)、AICC(赤池情報量基準、修正済み)です。
  • オリジナル(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。

パラメーター

  • time_series_attributeARIMAモデルを構築する対象の時系列属性(数値)。必要な属性は、このオプションから選択できます。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。範囲:
  • has_indicesこのパラメーターは、時系列に関連付けられたインデックス属性があるかどうかを示します。このパラメーターがtrueに設定されている場合、インデックス属性を選択する必要があります。範囲:
  • indices_attribute
    パラメーターのインデックスがtrueに設定されている場合、このパラメーターは関連するインデックス属性を定義します。日付、date_time、または数値タイプの属性のいずれかです。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。範囲:
  • p:_order_of_the_autoregressive_modelパラメーターpは、ARIMAモデルの自己回帰部分で使用されるラグの数を指定します。範囲:
  • d:_degree_of_differencingパラメーターdは、時系列値を区別する頻度を指定します。範囲:
  • q:_order_of_the_moving-average_modelパラメーターqは、モデルの移動平均部分の次数を指定します。範囲:
  • estimate_constant
    このパラメーターは、ARIMAプロセスの定数を推定するかどうかを示します。範囲:
  • main_criterionパフォーマンスベクトルの主な基準として使用されるパフォーマンス測定値。
    • aic:Akaikes情報基準:所定のデータセットの統計モデルの相対的な品質の推定量。 aicは、モデルの適合度とモデルの単純さのトレードオフを扱います
    • bic:ベイジアン情報量基準:aicに似ていますが、モデル内のパラメーター数に対するペナルティ項が大きくなっています。
    • aicc:修正されたAkaikesの情報基準:aiccのパフォーマンス測定値は、過剰な適合を防ぐために、小さなサンプルサイズを修正したaicです。

    範囲:

チュートリアルプロセス

ヒューロン湖データのArima

このチュートリアルプロセスでは、ヒューロン湖のデータセットでARIMAモデルをトレーニングすることにより、ARIMAオペレーターの基本的な使用方法を示します。

生成されたデータのArima

このチュートリアルプロセスでは、まずARIMAプロセスに基づいてデータを生成します。次に、これらのデータにARIMAが適用され、予測モデルが作成されます。

オートArima

このチュートリアルプロセスでは、最適化グリッド演算子を使用して、ヒューロン湖のデータセットを記述する最適なARIMAモデルを見つけます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル