Backward Elimination
概要
この演算子は、逆方向除去スキームの効率的な実装を通じて、指定されたExampleSetの最も関連性の高い属性を選択します。
詳細
Backward Elimination演算子はネストされた演算子です。つまり、サブプロセスがあります。 Backward Elimination演算子のサブプロセスは、常にパフォーマンスベクトルを返す必要があります。サブプロセスに関する詳細については、サブプロセス演算子をご覧ください。
Backward Eliminationオペレーターは、属性の完全なセットから開始し、各ラウンドで、指定されたExampleSetの残りの各属性を削除します。削除された属性ごとに、内部演算子(クロス検証など)を使用してパフォーマンスが推定されます。パフォーマンスの低下が最も少ない属性のみが最終的に選択から削除されます。次に、変更された選択で新しいラウンドが開始されます。この実装により、元のデータの保存に使用されるメモリと、内部演算子の適用に必要となる可能性のあるメモリ以外の追加のメモリ消費が回避されます。 停止動作パラメーターは、反復をいつ中止するかを指定します。次の3つのオプションがあります。
- 減少あり:パフォーマンスが向上する限り、反復が実行されます。
- 減少がより大きい場合:減少が指定されたしきい値(相対または絶対)未満である限り、反復が実行されます。最大相対減少パラメーターは、使用相対減少パラメーターがtrueに設定されている場合に最大相対減少を指定するために使用されます。それ以外の場合、最大絶対減少パラメーターは最大絶対減少を指定するために使用されます。
- 大幅な減少あり:alphaパラメーターで指定されたレベルまで減少が顕著になるとすぐに反復が停止します。
規定するパラメータ投機ラウンドは何ラウンド停止基準が満たされる最初の時間の後に、一列に行われます。投機的ラウンド中にパフォーマンスが再び上昇した場合、排除は継続されます。そうでない場合、投機的ラウンドが実行されなかったかのように、追加で削除されたすべての属性が復元されます。これにより、ローカルの最適条件にとらわれないようにすることができます。
機能の選択、つまり分類または回帰の問題に最も関連する機能の質問は、主要なデータマイニングタスクの1つです。進化的アルゴリズムを含む広範な検索方法がRapidMinerに統合されています。すべての検索方法について、検索ポイント(フィーチャサブセット)が特定のデータセットでどの程度実行されるかを示すパフォーマンス測定が必要です。
分化
Forward Selection
Forward Selection演算子は、属性の空の選択から始まり、各ラウンドで、指定されたExampleSetの各未使用属性を追加します。追加された属性ごとに、内部演算子、たとえば相互検証を使用してパフォーマンスが推定されます。パフォーマンスの最大の向上をもたらす属性のみが選択に追加されます。次に、変更された選択で新しいラウンドが開始されます。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。このExampleSetは、サブプロセスで処理するために、ネストされたチェーンの最初のポート(サブプロセス内)で使用できます。
出力
- サンプルセット (IOObject)特徴選択アルゴリズムは、入力ExampleSetに適用されます。縮小された属性を持つ結果のExampleSetは、このポート経由で配信されます。
- 属性の重み (平均ベクトル)属性の重みは、このポートを介して配信されます。
- パフォーマンス (パフォーマンスベクトル)このポートは、選択した属性のパフォーマンスベクトルを提供します。パフォーマンスベクトルは、パフォーマンス基準値のリストです。
パラメーター
- maximal_number_of_eliminationsこのパラメーターは、後方消去の最大数を指定します。 範囲:整数
- speculative_roundsこのパラメーターは、消去が実際に停止される前に停止基準が連続して無視される回数を指定します。 1より大きい数は、ローカルの最適値でスタックするのを回避するのに役立つ場合があります。 範囲:整数
- starting_behavior 停止動作パラメータは、反復をいつ中止するかを指定します。次の3つのオプションがあります。
- with_decrease:パフォーマンスが向上する限り、反復が実行されます。
- with_decrease_of_more_than:減少が指定されたしきい値(相対または絶対)未満である限り、反復が実行されます。最大相対減少パラメーターは、使用相対減少パラメーターがtrueに設定されている場合に最大相対減少を指定するために使用されます。それ以外の場合、最大絶対減少パラメーターは最大絶対減少を指定するために使用されます。
- with_significant_decrease:反復は、減少がalphaパラメーターで指定されたレベルに達するとすぐに停止します。
範囲:選択
- use_relative_decreaseこのパラメーターは、 停止動作パラメーターが「以上の減少あり」に設定されている場合にのみ使用できます。 相対減少パラメーターの使用がtrueに設定されている場合、 最大相対減少パラメーターが使用されます。それ以外の場合、 最大絶対減少パラメーターが使用されます。 範囲:ブール
- maximal_absolute_decreaseこのパラメーターは、 停止動作パラメーターが「以上の減少あり」に設定され、 相対減少使用パラメーターがfalseに設定されている場合にのみ使用できます。最後のステップまでの絶対的なパフォーマンスの低下がこのしきい値を超えると、消去は停止されます。 範囲:実数
- maximal_relative_decreaseこのパラメーターは、 停止動作パラメーターが「以上の減少あり」に設定され、 相対減少パラメーターの使用がtrueに設定されている場合にのみ使用できます。最後のステップまでの相対的なパフォーマンスの低下がこのしきい値を超えると、消去は停止されます。 範囲:実数
- alphaこのパラメーターは、 停止動作パラメーターが「大幅に減少」に設定されている場合にのみ使用できます。このパラメーターは、差が有意とみなされるかどうかを決定する確率しきい値を指定します。 範囲:実数
チュートリアルプロセス
多項式データセットの特徴削減
「多項式」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには、label属性以外に5つの通常の属性があることがわかります。 Backward Elimination演算子は、ネストされた演算子、つまりサブプロセスを持つExampleSetに適用されます。サブプロセスがパフォーマンスベクトルを提供する必要があります。このパフォーマンスベクトルは、基礎となる機能削減アルゴリズムによって使用されます。この演算子のサブプロセスを見てください。 X-Validation演算子が使用され、それ自体がネストされた演算子です。 X-Validation演算子のサブプロセスをご覧ください。 K-NN演算子は、モデルをトレーニングするための「トレーニング」サブプロセスで使用されます。トレーニング済みモデルは、「テスト」サブプロセスの「モデルの適用」演算子を使用して適用されます。パフォーマンスは、Performanceオペレーターを介して測定され、結果のパフォーマンスベクトルは基になるアルゴリズムによって使用されます。プロセスを実行し、結果ワークスペースに切り替えます。 5つの属性を持つExampleSetが3つの属性に削減されていることがわかります。