RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Forward Selection

概要

この演算子は、前方選択スキームの非常に効率的な実装を通じて、指定されたExampleSetの最も関連性の高い属性を選択します。

詳細

前方選択演算子はネストされた演算子です。つまり、サブプロセスがあります。前方選択演算子のサブプロセスは、常にパフォーマンスベクトルを返す必要があります。サブプロセスに関する詳細については、サブプロセス演算子をご覧ください。

Forward Selection演算子は、属性の空の選択から始まり、各ラウンドで、指定されたExampleSetの各未使用属性を追加します。追加された属性ごとに、内部演算子、たとえば相互検証を使用してパフォーマンスが推定されます。パフォーマンスの最大の向上をもたらす属性のみが選択に追加されます。次に、変更された選択で新しいラウンドが開始されます。この実装により、元のデータの保存に使用されるメモリと、内部演算子の適用に必要となる可能性のあるメモリ以外の追加のメモリ消費が回避されます。 停止動作パラメーターは、反復をいつ中止するかを指定します。次の3つのオプションがあります。

  • 増加なし:パフォーマンスが向上する限り、反復が実行されます。
  • 少なくとも増加なし:反復が、指定された少なくとも相対的なまたは絶対的な大きさである限り、反復が実行されます。使用相対増加パラメーターがtrueに設定されている場合、最小相対増加パラメーターは、最小相対増加を指定するために使用されます。それ以外の場合、最小絶対増加を指定するために最小絶対増加パラメーターが使用されます。
  • 大幅な増加なし:アルファパラメーターで指定されたレベルに対して増加が重要でないとすぐに反復が停止します。

規定するパラメータ投機ラウンドは何ラウンド停止基準が満たされる最初の時間の後に、一列に行われます。投機的ラウンド中にパフォーマンスが再び上昇した場合、選択が続行されます。そうでない場合、投機的ラウンドが実行されなかったかのように、追加で選択されたすべての属性が削除されます。これにより、ローカルの最適条件にとらわれないようにすることができます。

機能の選択、つまり分類または回帰の問題に最も関連する機能の質問は、主要なデータマイニングタスクの1つです。進化的アルゴリズムを含む広範な検索方法がRapidMinerに統合されています。すべての検索方法について、検索ポイント(フィーチャサブセット)が特定のデータセットでどの程度実行されるかを示すパフォーマンス測定が必要です。

分化

Backward Elimination

Backward Eliminationオペレーターは、属性の完全なセットから開始し、各ラウンドで、指定されたExampleSetの残りの各属性を削除します。削除された属性ごとに、内部演算子(クロス検証など)を使用してパフォーマンスが推定されます。パフォーマンスの低下が最も少ない属性のみが最終的に選択から削除されます。次に、変更された選択で新しいラウンドが開始されます。

入力

  • サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。このExampleSetは、サブプロセスで処理するために、ネストされたチェーンの最初のポート(サブプロセス内)で使用できます。

出力

  • サンプルセット (IOObject)特徴選択アルゴリズムは、入力ExampleSetに適用されます。縮小された属性を持つ結果のExampleSetは、このポート経由で配信されます。
  • 属性の重み (平均ベクトル)属性の重みは、このポートを介して配信されます。
  • パフォーマンス (パフォーマンスベクトル)このポートは、選択した属性のパフォーマンスベクトルを提供します。パフォーマンスベクトルは、パフォーマンス基準値のリストです。

パラメーター

  • maximal_number_of_attributesこのパラメーターは、Forward Selectionsで選択される属性の最大数を指定します。 範囲:整数
  • speculative_roundsこのパラメーターは、消去が実際に停止される前に停止基準が連続して無視される回数を指定します。 1より大きい数は、ローカルの最適値でスタックするのを回避するのに役立つ場合があります。 範囲:整数
  • starting_behavior 停止動作パラメータは、反復をいつ中止するかを指定します。次の3つのオプションがあります。
    • without_increase:パフォーマンスが向上する限り、反復が実行されます。
    • without_increase_of_at_least:反復が、指定された少なくとも相対的なまたは絶対的な増加である限り、反復が実行されます。使用相対増加パラメーターがtrueに設定されている場合、最小相対増加パラメーターは、最小相対増加を指定するために使用されます。それ以外の場合、最小絶対増加を指定するために最小絶対増加パラメーターが使用されます。
    • without_significant_increase:反復は、alphaパラメーターで指定されたレベルに対して増加が有意でないとすぐに停止します。

    範囲:選択

  • use_relative_increaseこのパラメーターは、 停止動作パラメーターが「少なくとも増加なし」に設定されている場合にのみ使用できます。 相対増加パラメータの使用がtrueに設定されている場合、 最小相対増加パラメータが使用されます。それ以外の場合、 最小絶対増加パラメータが使用されます。 範囲:ブール
  • minimal_absolute_increaseこのパラメーターは、 停止動作パラメーターが「少なくとも増加なし」に設定され、 使用相対増加パラメーターがfalseに設定されている場合にのみ使用できます。最後のステップまでの絶対的なパフォーマンスの増加がこのしきい値を下回ると、選択は停止します。 範囲:実数
  • minimal_relative_increaseこのパラメーターは、 停止動作パラメーターが「少なくとも増加なし」に設定され、 使用相対増加パラメーターがtrueに設定されている場合にのみ使用できます。最終ステップまでの相対的なパフォーマンスの増加がこのしきい値を下回ると、選択は停止します。 範囲:実数
  • alphaこのパラメーターは、 停止動作パラメーターが「大幅な増加なし」に設定されている場合にのみ使用できます。このパラメーターは、差が有意とみなされるかどうかを決定する確率しきい値を指定します。 範囲:実数

チュートリアルプロセス

前方選択による多項式データセットの機能削減

「多項式」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには、label属性以外に5つの通常の属性があることがわかります。前方選択演算子は、ネストされた演算子であるExampleSetに適用されます。つまり、サブプロセスがあります。サブプロセスがパフォーマンスベクトルを提供する必要があります。このパフォーマンスベクトルは、基礎となる機能削減アルゴリズムによって使用されます。この演算子のサブプロセスを見てください。ネストされた演算子であるX-Validation演算子が使用されます。 X-Validation演算子のサブプロセスをご覧ください。 K-NN演算子は、モデルをトレーニングするための「トレーニング」サブプロセスで使用されます。トレーニング済みモデルは、「テスト」サブプロセスの「モデルの適用」演算子を使用して適用されます。パフォーマンスは、Performanceオペレーターを介して測定され、結果のパフォーマンスベクトルは基になるアルゴリズムによって使用されます。プロセスを実行し、結果ワークスペースに切り替えます。 5つの属性を持つExampleSetが3つの属性に削減されていることがわかります。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル