RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Forecast Validation

概要

この演算子は、時系列の将来の値を予測する予測モデルの検証を実行します。

詳細

オペレーターは、 時系列属性パラメーターで指定された入力時系列からスライディングウィンドウを作成します。各検証ステップでは、 トレーニングサブプロセスの内部トレーニングセットポートでトレーニングウィンドウが提供されます。そのサイズは、パラメータwindow sizeによって定義されます。トレーニングウィンドウを使用して、予測モデル(たとえば、ARIMAオペレータによるARIMAモデル)をトレーニングできます。これは、 トレーニングサブプロセスのモデルポートに提供する必要があります。

Testingサブプロセスの内部テストセットポートには、テストウィンドウの値が含まれています。そのサイズは、パラメータhorizo​​n sizeによって定義されます。これらの値を予測するには、 トレーニングサブプロセスの予測モデルが使用されます。クロス検証演算子とは反対に、予測モデルで予測する必要のある値の数は、 地平線のサイズと等しくなければなりません。したがって、予測値はテストセットポートで提供されるExampleSetにすでに追加されているため 、追加の予測予測演算子は必要ありません。テストウィンドウの値を保持する属性にはラベルの役割があり、 予測値を保持する属性には予測の役割があります。したがって、パフォーマンスオペレーター(パフォーマンス(回帰)など)を使用して、予測のパフォーマンスを計算できます。

次の検証フォールドでは、トレーニングウィンドウとテストウィンドウは、パラメーターステップサイズで定義されたk値だけシフトされます。パラメーターのオーバーラップウィンドウがtrueに設定されていない場合、 ステップサイズは値に設定され、トレーニングウィンドウもテストウィンドウもオーバーラップしません( ステップサイズ = ウィンドウサイズ + 水平サイズ )。

Forecast Validationオペレーターは、時系列の最後のトレーニングウィンドウでトレーニングされた最後の分割の予測モデルを提供します。また、1つのExampleSetと平均化されたパフォーマンスベクトルに追加されたすべてのテストセット ExampleSetを提供します。

この演算子は、すべての時系列(日付時刻値を含む数値、名義、および時系列)で機能します。

入力

  • サンプルセット (IOObject)時系列データを属性として含むExampleSet。

出力

  • モデル(モデル)時系列の最後のトレーニングウィンドウでトレーニングされた最後の分割の予測モデル。
  • サンプルセット(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。
  • テスト結果セット(IOObject)1つのExampleSetに追加されたすべてのテストセットExampleSet。
  • パフォーマンス(パフォーマンスベクトル)これは拡張可能なポートです。任意のパフォーマンスベクトル(パフォーマンスオペレーターの結果)を内部テストサブプロセスの結果ポートに接続できます。パフォーマンス出力ポートは、検証のすべてのフォールドにわたってパフォーマンスの平均を提供します

パラメーター

  • time_series_attribute予測モデルを構築する時系列値を保持する時系列属性。必要な属性は、このオプションから選択できます。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。範囲:
  • has_indicesこのパラメーターは、時系列に関連付けられたインデックス属性があるかどうかを示します。このパラメーターがtrueに設定されている場合、インデックス属性を選択する必要があります。範囲:
  • indices_attribute
    パラメーターのインデックスがtrueに設定されている場合、このパラメーターは関連するインデックス属性を定義します。日付、date_time、または数値タイプの属性のいずれかです。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。範囲:
  • window_sizeトレーニングウィンドウの値の数。 トレーニングサブプロセスのトレーニングセットポートで提供されるExampleSetには、 ウィンドウサイズのサンプルがあります。 ウィンドウサイズは、時系列の長さ以下にする必要があります。範囲:
  • no_overlapping_windowsこのパラメーターがtrueに設定されている場合、すべてのウィンドウと水平線が重ならないように、パラメーターstepsizeが自動的に決定されます。ステップサイズは、 ウィンドウサイズ + 水平サイズに設定されます範囲:
  • step_size2つの連続したウィンドウの最初の値の間のステップサイズ。たとえば、ウィンドウサイズが10、ステップサイズが2の場合、最初のウィンドウの値は0、…、9、2番目のウィンドウの値は2、…、11などになります。 重複するウィンドウがtrueに設定されていない場合、 ウィンドウサイズ水平サイズに応じてステップサイズが自動的に決定されます範囲:
  • horizo​​n_sizeテストウィンドウ内の値の数。 Testingサブプロセスのテストセットポートで提供されるExampleSetには、例の地平線サイズがあります。テストウィンドウに元の時系列値を保持する属性(属性名は時系列属性パラメーターの名前)と、 トレーニングサブプロセスからの予測モデルによって予測されたテストウィンドウに値を保持する属性があります(属性名は<時系列属性>の予測です )。また、ExampleSetは1から水平サイズに及ぶ、予測位置と属性を有しています。パラメータのインデックスがtrueに設定されている場合、ExampleSetにはトレーニングウィンドウの最後のインデックス値を保持する属性もあります。範囲:
  • enable_parallel_executionこのパラメーターは、内部プロセスの並列実行を有効にします。メモリの問題が発生した場合は、並列実行を無効にしてください。範囲:

チュートリアルプロセス

ヒューロン湖のARIMAモデルのパフォーマンスを検証

このプロセスでは、予測検証演算子を使用して、ヒューロン湖のデータセットのARIMAモデルのパフォーマンスを検証します。 ARIMAモデルは、サイズ20のトレーニングウィンドウでトレーニングされます。このモデルは、時系列の次の5(水平サイズ)値を予測するために使用されます。予測モデルのパフォーマンスを計算するために、予測値が元の値と比較されます。

ステップサイズは5に設定されているため、検証ウィンドウごとにトレーニングウィンドウとテストウィンドウが5シフトされます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル