Weight by Information Gain Ratio
概要
この演算子は、情報ゲイン比に基づいて属性の関連性を計算し、それに応じて重みを割り当てます。
詳細
情報ゲイン比による重み演算子は、情報ゲイン比を使用して、ラベル属性に対する属性の重みを計算します。属性の重みが大きいほど、より関連性が高いと見なされます。この演算子は、名義ラベルのあるExampleSetにのみ適用できることに注意してください。
情報ゲイン比は、情報ゲインの欠点を解決するために使用されます。通常、情報の獲得は属性の関連性を判断するための適切な尺度ですが、完全ではありません。多数の個別の値を取ることができる属性に情報ゲインが適用される場合、顕著な問題が発生します。たとえば、ビジネスの顧客を説明するデータがあるとします。情報ゲインを使用して、どの属性が最も関連性があるかを判断する場合、顧客のクレジットカード番号の情報ゲインが高くなることがあります。この属性は、各顧客を一意に識別するため、情報量が多くなりますが、このような属性に高い重みを割り当てたくない場合があります。情報ゲインによる重み演算子は、属性ゲインを生成するために情報ゲインを使用します。
情報ゲインの代わりに情報ゲイン比が使用される場合があります。情報ゲイン比は、多数の個別の値を持つ属性を考慮することに対して偏っています。ただし、情報値が非常に低い属性は、不公平な利点を享受するように見えます。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。
出力
- 重み(平均ベクトル)このポートは、ラベル属性に関する属性の重みを提供します。重みが大きい属性ほど関連性が高いと見なされます。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更されることなく渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- normalize_weightsこのパラメーターは、計算された重みを正規化するかどうかを示します。 trueに設定すると、すべての重みが0〜1の範囲で正規化されます。 範囲:ブール値
- sort_weightsこのパラメーターは、結果の重みに従って属性をソートするかどうかを示します。このパラメーターがtrueに設定されている場合、ソートの順序は、 ソート方向パラメーターを使用して指定されます。 範囲:ブール
- sort_directionこのパラメーターは、 ソートの重みパラメーターがtrueに設定されている場合にのみ使用できます。このパラメーターは、重みに応じて属性のソート順を指定します。 範囲:選択
チュートリアルプロセス
Golfデータセットの属性の重みの計算
「ゴルフ」データセットは、検索演算子を使用してロードされます。情報ゲイン比率による重み演算子が適用され、属性の重みが計算されます。すべてのパラメーターはデフォルト値で使用されます。ウェイトの正規化パラメーターがtrueに設定されているため、すべてのウェイトは0〜1の範囲で正規化されます。ソートウェイトパラメーターはtrueに設定され、ソート方向パラメーターは「昇順」に設定されます。重みの。これを確認するには、結果ワークスペースでこのプロセスの結果を表示します。