Weight by Correlation
概要
この演算子は、ラベル属性に関して入力ExampleSetの各属性の相関値を計算することにより、属性の関連性を計算します。この重み付け方式は相関に基づいており、相関の絶対値または二乗値を属性の重みとして返します。
詳細
相関による重み演算子は、相関を使用して、ラベル属性に関する属性の重みを計算します。属性の重みが大きいほど、より関連性が高いと見なされます。相関演算子による重みは、数値または二項ラベルのあるExampleSetにのみ適用できることに注意してください。多項式クラスはその順序に関する情報を提供しないため、多項式属性には適用できません。したがって、重みはクラスの内部数値表現に応じて多少ランダムになります。 2項ラベルは、数値と同様に0と1として表現されるため機能します。
相関は、-1と+1の間の数値であり、2つの属性間の関連度を測定します(XとYと呼びます)。相関の正の値は、正の関連付けを意味します。この場合、Xの大きな値はYの大きな値に関連付けられ、Xの小さな値はYの小さな値に関連付けられる傾向があります。相関の負の値は、負または逆の関連付けを意味します。この場合、Xの大きな値はYの小さな値と関連付けられる傾向があり、その逆も同様です。
2つの属性XとYがあり、それぞれ平均X ‘とY’、標準偏差S(X)とS(Y)があるとします。相関は、積(X(i)-X ‘)。(Y(i)-Y’)の 1からnまでの合計として計算され、この合計を積(n-1).S(X)で除算します。 .S(Y)ここで、 nは例の合計数、 iは合計の増分変数です。他の式や定義もありますが、簡単にするためにこれに固執してみましょう。
前に説明したように、相関の正の値は正の関連付けを意味します。 X値が平均を上回り、関連するY値も平均を上回っていると仮定します。その場合、積(X(i)-X ‘)。(Y(i)-Y’)は、正の2つの正数の積になります。 X値とY値の両方が平均を下回った場合、上の積は2つの負の数になり、これも正になります。したがって、正の相関は、Xの大きな値がYの大きな値に関連付けられ、Xの小さな値がYの小さな値に関連付けられるという一般的な傾向の証拠です。
前述のように、相関の負の値は、負または逆の関連を意味します。 X値が平均を上回り、関連するY値が平均を下回ったと仮定します。その場合、積(X(i)-X ‘)。(Y(i)-Y’)は正と負の数の積になり、その積は負になります。 X値が平均を下回り、Y値が平均を上回った場合、上の製品も負になります。したがって、負の相関は、Xの大きな値がYの小さな値に関連付けられ、Xの小さな値がYの大きな値に関連付けられるという一般的な傾向の証拠です。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。
出力
- 重み(平均ベクトル)このポートは、ラベル属性に関する属性の重みを提供します。重みが大きい属性ほど関連性が高いと見なされます。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- normalize_weightsこのパラメーターは、計算された重みを正規化するかどうかを示します。 trueに設定すると、すべての重みが0〜1の範囲で正規化されます。 範囲:ブール値
- sort_weightsこのパラメーターは、結果の重みに従って属性をソートするかどうかを示します。このパラメーターがtrueに設定されている場合、ソートの順序は、 ソート方向パラメーターを使用して指定されます。 範囲:ブール
- sort_directionこのパラメーターは、 ソートの重みパラメーターがtrueに設定されている場合にのみ使用できます。このパラメーターは、重みに応じて属性のソート順を指定します。 範囲:選択
- squared_correlationこのパラメーターは、単純な相関の代わりに二乗相関を計算する必要があるかどうかを示します。 trueに設定すると、属性の重みは単純な相関ではなく相関の二乗として計算されます。 範囲:ブール
チュートリアルプロセス
多項式データセットの属性の重みの計算
「多項式」データセットは、Retrieve演算子を使用してロードされます。相関演算子による重みが適用され、属性の重みが計算されます。すべてのパラメーターはデフォルト値で使用されます。ウェイトの正規化パラメーターがtrueに設定されているため、すべてのウェイトは0〜1の範囲で正規化されます。ソートウェイトパラメーターはtrueに設定され、ソート方向パラメーターは「昇順」に設定されます。重みの。これを確認するには、結果ワークスペースでこのプロセスの結果を表示します。ここで、二乗相関パラメーターをtrueに設定して、プロセスを再度実行します。これらの重みが前の重みの二乗であることがわかります。