RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Remove Correlated Attributes

概要

この演算子は、ExampleSetから相関属性を削除します。相関しきい値はユーザーが指定します。相関は、属性のペアが関連しているかどうか、またどの程度強く関連しているかを示すことができる統計的手法です。

詳細

相関は、-1と+1の間の数値であり、2つの属性間の関連度を測定します(XとYと呼びます)。相関の正の値は、正の関連付けを意味します。この場合、Xの大きな値はYの大きな値に関連付けられ、Xの小さな値はYの小さな値に関連付けられる傾向があります。相関の負の値は、負または逆の関連付けを意味します。この場合、Xの大きな値はYの小さな値と関連付けられる傾向があり、その逆も同様です。

2つの属性XとYがあり、それぞれ平均X ‘とY’、およびそれぞれ標準偏差S(X)とS(Y)があるとします。相関は、積(X(i)-X ‘)。(Y(i)-Y’)の 1からnまでの合計として計算され、この合計を積(n-1).S(X)で除算します。 .S(Y)ここで、 nは例の合計数、 iは合計の増分変数です。他の式や定義もありますが、簡単にするためにこれに固執してみましょう。

前に説明したように、相関の正の値は正の関連付けを意味します。 X値が平均を上回り、関連するY値も平均を上回っていると仮定します。その場合、積(X(i)-X ‘)。(Y(i)-Y’)は、正の2つの正数の積になります。 X値とY値の両方が平均を下回った場合、上の積は2つの負の数になり、これも正になります。したがって、正の相関は、Xの大きな値がYの大きな値に関連付けられ、Xの小さな値がYの小さな値に関連付けられるという一般的な傾向の証拠です。

前述のように、相関の負の値は、負または逆の関連を意味します。 X値が平均を上回り、関連するY値が平均を下回ったと仮定します。その場合、積(X(i)-X ‘)。(Y(i)-Y’)は正と負の数の積になり、その積は負になります。 X値が平均を下回り、Y値が平均を上回った場合、上の製品も負になります。したがって、負の相関は、Xの大きな値がYの小さな値に関連付けられ、Xの小さな値がYの大きな値に関連付けられるという一般的な傾向の証拠です。

この演算子は、特にフィルター関係パラメーターのパラメーターの設定に応じて、相関属性または非相関属性を削除するために使用できます。手順は、属性の数が2次です。つまり、 m個の属性について、相関のmxm行列が計算されます。属性を除外する必要がある場合、この演算子は失敗する場合があることに注意してください。たとえば、完全なmxm-相関行列では相関が再計算されず、したがって現在のペアの属性のいずれかが既に削除対象としてマークされているかどうかがチェックされないため、すべての負の相関属性を削除できない場合がありますこれは、3つの属性X、Y、およびZについて、YはXとの負の相関関係によってすでに除外されている可能性があり、現在はZを除外できないことを意味します。この演算子で使用される相関関数は、ピアソン相関です。より安定した結果を得るために、属性の元の順序、ランダムな順序、逆の順序を使用できます。

相関属性は通常、振る舞いが類似しており、予測計算に同様の影響を与えるため、削除されます。したがって、同様の影響を持つ属性を保持することは冗長です。相関する属性を削除すると、複雑なアルゴリズムの計算のスペースと時間を節約できます。さらに、プロセスの設計、分析、理解、理解も容易になります。

入力

  • サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のFilter Examples演算子の出力です。他の演算子の出力も入力として使用できます。

出力

  • 設定出力の例(IOObject)(非)相関属性はExampleSetから削除され、このExampleSetはこの出力ポートを介して配信されます。
  • オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • correlationこのパラメータは、属性をフィルタリングするための相関を指定します。相関は、-1と+1の間の数値であり、2つの属性間の関連度を測定します(XとYと呼びます)。相関の正の値は、正の関連付けを意味します。この場合、Xの大きな値はYの大きな値に関連付けられ、Xの小さな値はYの小さな値に関連付けられる傾向があります。相関の負の値は、負または逆の関連付けを意味します。この場合、Xの大きな値はYの小さな値と関連付けられる傾向があり、その逆も同様です。 範囲:実数
  • filter_relation 2つの属性の相関が一度に比較されます。相関がこのパラメーターで指定された関係を満たす場合、2つの属性のいずれかが削除されます。 範囲:選択
  • attribute_orderアルゴリズムは、この属性順序を使用して相関を計算し、属性をフィルタリングします。 範囲:選択
  • use_absolute_correlationこのパラメーターは、相関の絶対値を比較に使用する必要があるかどうかを示します。 範囲:ブール

チュートリアルプロセス

Sonarデータセットから相関属性を削除する

「ソナー」データセットは、検索演算子を使用してロードされます。ここにブレークポイントが挿入されるので、さらに演算子を適用する前にExampleSetを表示できます。 「ソナー」データセットには60個の数値属性があることがわかります。相関行列演算子が適用されます。この演算子は、「ソナー」データセットの相関行列を表示できるように適用されます。それ以外の場合、この演算子はここでは必要ありません。 「相関属性の削除」演算子は、「ソナー」データセットに適用されます。相関パラメーターは0.8に設定されます。フィルター関係パラメーターは「より大きい」に設定され、属性順序パラメーターは「オリジナル」に設定されます。プロセスを実行すると、「ソナー」データセットの60個の数値属性のうち19個が削除されたことが結果ワークスペースに表示されます。ここで、相関行列演算子によって生成された相関行列を見てみましょう。相関が0.8を超える属性のほとんどがデータセットから削除されていることがわかります。このような属性は、属性を除外する必要がある場合にこの演算子が失敗する可能性があるため、削除されません。完全な相関のmxmマトリックスでは相関が再計算されず、したがって現在のペアの属性の1つが既に削除対象としてマークされているかどうかがチェックされないため、すべての相関属性を削除できない場合があります。属性順序パラメーターの値を「ランダム」に変更して、プロセスを再実行してください。これらの結果を以前の結果と比較します。今回は、異なる属性セットがデータセットから削除されます。そのため、相関演算子が適用される順序によって出力が変わる場合があります。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル