Covariance Matrix
概要
この演算子は、入力ExampleSetのすべての属性間の共分散を計算し、2つの属性が一緒にどれだけ変化するかを示す共分散行列を返します。
詳細
共分散は、2つの属性が同時に変化する度合いの尺度です。 1つの属性の大きい値が主に他の属性の大きい値に対応し、小さい値にも同じことが当てはまる場合、つまり属性が同様の動作を示す傾向がある場合、共分散は正の数です。反対の場合、1つの属性の大きい値が主に他の小さい値に対応する場合、つまり属性が反対の動作を示す傾向がある場合、共分散は負になります。したがって、共分散の符号は、変数間の線形関係の傾向を示します。 E {x}およびE {y}を意味する2つの属性xおよびyの場合、共分散は次のように定義されます。
Cov(x、y)= E {[x-E(x)] [y-E(y)]}
共分散の計算はxとyのペアから始まり、それらの差を平均値から取得し、これらの差を乗算します。データの組は、xとyの値は、それらの手段から同じ方向に一緒に変化している点について、例えば、X1とY1この製品の場合は、正です。製品が負の場合、それらは反対方向に変化しています。製品の規模が大きいほど、関係の強さは強くなります。共分散は、この製品の平均値として定義され、データポイントx(i)およびy(i)の各ペアを使用して計算されます。共分散がゼロの場合、製品が正の場合は負の場合によって相殺され、2つの属性間に線形関係はありません。
共分散の値は次のように解釈されます。
- 正の共分散:1つの属性の平均値よりも高い値が、他の属性の平均値よりも高い値とペアになる傾向があることを示します。
- 負の共分散:1つの属性の平均値よりも高い値が、他の属性の平均値よりも低い値とペアになる傾向があることを示します。
- 共分散ゼロ:2つの属性が独立している場合、共分散はゼロになります。ただし、共分散がゼロであることは、変数が独立していることを必ずしも意味しません。共分散値がゼロになる非線形関係が存在する可能性があります。
共分散を表す数はデータの単位に依存するため、スケールが異なるデータセット間で共分散を比較することは困難です。あるデータセットの強い線形関係を表す値は、別のデータセットの非常に弱い関係を表す場合があります。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。
出力
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- 共分散(IOObject)入力ExampleSetのすべての属性の共分散が計算され、結果の共分散行列がこのポートから返されます。
チュートリアルプロセス
多項式データセットの共分散行列
「多項式」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを表示できるように、ブレークポイントがここに挿入されます。ご覧のとおり、ExampleSetには5つの実際の属性があります。共分散行列演算子は、このExampleSetに適用されます。結果の共分散行列は、結果ワークスペースで表示できます。