RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Sliding Window Validation

概要

この演算子は、時間依存の入力データでトレーニングされた機械学習モデルのスライディングウィンドウ検証を実行します。

詳細

オペレーターは、入力データからスライディングウィンドウを作成します。各検証ステップでは、 トレーニングサブプロセスの内部トレーニングセットポートでトレーニングウィンドウが提供されます。 トレーニングウィンドウのサイズは、パラメータートレーニングウィンドウサイズによって定義されます。最初のトレーニングウィンドウは、入力データの最初の例から始まります。トレーニングウィンドウを使用して、 トレーニングサブプロセスのモデルポートに提供する必要がある機械学習モデルをトレーニングできます。

入力データのテストウィンドウは、 テストサブプロセスの内部テストセットポートで提供されます。そのサイズは、パラメータテストウィンドウサイズによって定義されます。テストウィンドウは常に、前のトレーニングウィンドウの後の最初の例から始まります。 トレーニングサブプロセスでトレーニングされたモデルは、 テストサブプロセスのモデルポートで提供されます。 テストセットに適用できます。この予測のパフォーマンスを評価することができ、パフォーマンスベクトルをテストプロセスのパフォーマンスポートに提供する必要があります。

次の検証フォールドでは、トレーニングウィンドウとテストウィンドウは、パラメーターステップサイズで定義されたk値だけシフトされます。パラメーターのオーバーラップウィンドウがtrueに設定されていない場合、 ステップサイズは値に設定され、トレーニングウィンドウもテストウィンドウもオーバーラップしません( ステップサイズ = トレーニングウィンドウサイズ + テストウィンドウサイズ )。

スライディングウィンドウの検証により、 トレーニングサブプロセスで構築された機械学習モデルが、トレーニングウィンドウの後の例で常に評価されることが保証されます。

スライディングウィンドウ検証演算子のモデル出力ポートが接続されている場合、すべての入力例でトレーニングサブプロセスの最終実行が実行されます。この反復で構築された機械学習モデルは、 モデル出力ポートで提供されます。

この演算子は、すべての時系列(日付時刻値を含む数値、名義、および時系列)で機能します。

入力

  • サンプルセット (IOObject)この入力ポートは、スライディングウィンドウ検証を適用するExampleSetを受け取ります。

出力

  • モデル(モデル)このポートは、ExampleSet全体でトレーニングされた予測モデルを提供します。このポートは、本当にこのモデルが必要な場合にのみ接続する必要があることに注意してください。そうしないと、生成がスキップされ、ランタイムが改善されます。
  • サンプルセット(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。
  • テスト結果セット(IOObject)1つのExampleSetに追加されたすべてのテストセットExampleSet。
  • パフォーマンス(パフォーマンスベクトル)これは拡張可能なポートです。任意のパフォーマンスベクトル(パフォーマンスオペレーターの結果)を内部テストサブプロセスの結果ポートに接続できます。パフォーマンス出力ポートは、検証のすべてのフォールドにわたってパフォーマンスの平均を提供します

パラメーター

  • has_indicesこのパラメーターは、時系列に関連付けられたインデックス属性があるかどうかを示します。このパラメーターがtrueに設定されている場合、インデックス属性を選択する必要があります。

    範囲:

  • indices_attributeパラメーターのインデックスがtrueに設定されている場合、このパラメーターは関連するインデックス属性を定義します。日付、date_time、または数値タイプの属性のいずれかです。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。

    範囲:

  • training_window_sizeトレーニングウィンドウの値の数。 トレーニングサブプロセスのトレーニングセットポートで提供されるExampleSetには、 トレーニングウィンドウサイズのサンプルがあります。 トレーニングウィンドウのサイズは、時系列の長さ以下でなければなりません。

    範囲:

  • no_overlapping_windowsこのパラメーターをtrueに設定すると、すべてのトレーニングウィンドウとテストウィンドウが重ならないように、パラメーターのステップサイズが自動的に決定されます。ステップサイズは、 トレーニングウィンドウサイズ + テストウィンドウサイズに設定されます

    範囲:

  • step_size2つの連続したウィンドウの最初の値の間のステップサイズ。たとえば、トレーニングウィンドウサイズが10、ステップサイズが2の場合、最初のトレーニングウィンドウの値は0、…、9から、2番目のトレーニングウィンドウの値は2、…、11からなどになります。 オーバーラップするウィンドウがtrueに設定されていない場合、 ステップサイズトレーニングウィンドウサイズテストウィンドウサイズに応じて自動的に決定されます。

    範囲:

  • test_window_sizeテストウィンドウ内の値の数。 Testingサブプロセスのテストセットポートで提供されるExampleSetには、 テストウィンドウサイズのサンプルがあります。 テストウィンドウのサイズは、時系列の長さ以下でなければなりません。

    範囲:

  • enable_parallel_executionこのパラメーターは、内部プロセスの並列実行を有効にします。メモリの問題が発生した場合は、並列実行を無効にしてください。

    範囲:

チュートリアルプロセス

ガス価格を予測するために訓練されたGBTのパフォーマンスを検証

このプロセスでは、Sliding Window Validationオペレーターを使用して、将来の24時間のガスの価格を予測するように訓練されたGBTのパフォーマンスを検証します。

詳細については、プロセスのコメントを参照してください。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル