Weight by Tree Importance
概要
この演算子は、ランダムフォレストモデルの分割ポイントを分析することにより、属性の重みを計算します。重みが大きい属性は、より関連性が高く重要であると見なされます。
説明
この重み付けスキーマは、指定されたランダムフォレストを使用して、使用されている属性の暗黙的な重要性を抽出します。したがって、各ツリーの各ノードが訪問され、それぞれの分割によって作成された利点が取得されます。この利点は、分割に使用された属性ごとに合計されます。すべてのツリーに対する平均利益が重要度として使用されます。
このアルゴリズムは、Menze、Bjoen H et all(2009)による「ランダムフォレストおよびそのジニの重要性とスペクトルデータの特徴選択および分類のための標準ケモメトリックメソッドとの比較」のアイデアに従って実装されています。特定の分割から生じる利益を計算するための追加の基準によって拡張されています。元の論文ではGini Indexのみに言及していましたが、この演算子はさらに信頼性の高い情報ゲインと情報ゲイン比をサポートしています。
入力
- ランダムフォレスト (ランダムフォレストモデル)入力ポートは、ランダムツリーの投票モデルであるランダムフォレストモデルを想定しています。これは、添付のプロセス例のランダムフォレスト演算子の出力です。
出力
- 重み (平均ベクトル)このポートは、ラベル属性に関する属性の重みを提供します。重みが大きい属性ほど関連性が高いと見なされます。
- ランダムフォレスト (ランダムフォレストモデル)入力として与えられたランダムフォレストモデルは、このポートを介して出力に変更されることなく渡されます。これは通常、同じモデルを他の演算子で再利用したり、結果ワークスペースでモデルを表示したりするために使用されます。
パラメーター
- criterionこのパラメーターは、属性の重み付けに使用される基準を指定します。情報ゲイン、ゲイン比、ジニインデックス、または精度のいずれかの値を持つことができます。 範囲:選択
- normalize_weightsこのパラメーターは、計算された重みを正規化するかどうかを示します。 trueに設定されている場合、すべての重みは0〜1の範囲で正規化されます。 範囲:ブール値
チュートリアルプロセス
ランダムフォレストモデルを使用したゴルフデータセットの属性ウェイトの計算
「ゴルフ」データセットは、検索演算子を使用してロードされます。 Random Forest演算子をそれに適用して、ランダムフォレストモデルを生成します。ブレークポイントがここに挿入されるため、生成されたモデルを見ることができます。結果のモデルは、ツリーの重要度による重み演算子への入力として提供され、「ゴルフ」データセットの属性の重みを計算します。すべてのパラメーターはデフォルト値で使用されます。ウェイトの正規化パラメーターがtrueに設定されているため、すべてのウェイトは0〜1の範囲で正規化されます。これを確認するには、結果ワークスペースでこのプロセスの結果を表示します。