Principal Component Analysis
概要
この演算子は、共分散行列を使用して主成分分析(PCA)を実行します。ユーザーは、最適な数の主成分を保持しながら、元のデータでカバーする分散の量を指定できます。ユーザーは、主成分の数を手動で指定することもできます。
詳細
主成分分析(PCA)は、属性削減手順です。多数の属性(場合によっては多数の属性)のデータを取得し、それらの属性に冗長性があると考えられる場合に役立ちます。この場合、冗長性とは、一部の属性が相互に関連付けられていることを意味します。これは、おそらく同じ構成を測定しているためです。この冗長性のため、観測された属性のほとんどの分散を説明する少数の主成分(人工属性)に観測された属性を減らすことが可能であると信じています。
主成分分析は、直交変換を使用して、相関する可能性のある属性の一連の観測値を、主成分と呼ばれる相関のない属性の値のセットに変換する数学的手順です。主成分の数は、元の属性の数以下です。この変換は、最初の主成分の分散ができるだけ大きくなるように定義され(データの変動を可能な限り多く考慮して)、後続の各コンポーネントは、先行するコンポーネントに直交(無相関)する必要があります。
PCAは元の属性の相対的なスケーリングに敏感であることに注意してください。これは、異なる属性が異なる単位(温度や質量など)を持っている場合は常に、 PCAはややarbitrary意的な分析方法です。たとえば摂氏ではなく華氏を使用すると、異なる結果が得られます。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。メタデータで属性が指定されているため、入力用のデータにメタデータを添付する必要があります。 Retrieveオペレーターは、データとともにメタデータを提供します。この演算子は公称属性を処理できないことに注意してください。数値属性で機能します。
出力
- サンプルセット(IOObject)主成分分析は入力ExampleSetで実行され、結果のExampleSetはこのポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- 前処理モデル(前処理モデル)このポートは、現在のプロセスにおけるこのオペレーターのパラメーターに関する情報を含む前処理モデルを提供します。
パラメーター
- dimensionality_reductionこのパラメーターは、どのタイプの次元削減(属性数の削減)を適用する必要があるかを示します。
- none:このオプションが選択されている場合、ExampleSetからコンポーネントは削除されません。
- keep_variance:このオプションを選択すると、指定したしきい値よりも大きい累積分散を持つすべてのコンポーネントがExampleSetから削除されます。しきい値は、分散しきい値パラメーターによって指定されます。
- fixed_number:このオプションを選択すると、一定数のコンポーネントのみが保持されます。保持するコンポーネントの数は、number of componentsパラメーターによって指定されます。
範囲:選択
- variance_thresholdこのパラメーターは、 次元削減パラメーターが「keepvariance」に設定されている場合にのみ使用できます。 分散しきい値よりも大きい累積分散を持つすべてのコンポーネントは、ExampleSetから削除されます。 範囲:実数
- number_of_componentsこのパラメーターは、 次元削減パラメーターが「固定数」に設定されている場合にのみ使用できます。保持するコンポーネントの数は、 number of componentsパラメーターによって指定されます。 範囲:整数
チュートリアルプロセス
主成分分析演算子を使用した多項式データセットの次元削減
「多項式」データセットは、Retrieve演算子を使用してロードされます。共分散行列演算子がそれに適用されます。ここにブレークポイントが挿入されるため、ExampleSetとその共分散行列を見ることができます。この目的のために、共分散行列演算子が適用されます。それ以外の場合、ここでは必要ありません。主成分分析演算子は、「多項式」データセットに適用されます。次元削減パラメーターは「固定数」に設定され、コンポーネント数パラメーターは4に設定されます。したがって、結果のExampleSetは4つの主成分で構成されます。説明で述べたように、主成分は互いに相関関係がないため、共分散はゼロでなければなりません。共分散行列演算子は、主成分分析演算子の出力に適用されます。結果ワークスペースで、結果のExampleSetの共分散行列を確認できます。ご覧のとおり、コンポーネントの共分散はゼロです。