Singular Value Decomposition
概要
この演算子は、特異値分解(SVD)に基づいて、指定されたExampleSetの次元削減を実行します。ユーザーは、必要な次元数を指定するか、累積分散しきい値を指定できます。後者の場合、このしきい値を超える累積分散を持つすべてのコンポーネントは破棄されます。
詳細
特異値分解(SVD)を使用して、重要な次元の数を示すことにより、ExampleSetをよりよく理解できます。 ExampleSetの属性の数を減らすことにより、ExampleSetを単純化するためにも使用できます。この削減により、線形代数の観点で線形に依存する不要な属性が削除されます。多数の属性(場合によっては多数の属性)のデータを取得し、それらの属性に冗長性があると考えられる場合に役立ちます。この場合、冗長性とは、一部の属性が相互に関連付けられていることを意味します。これは、おそらく同じ構成を測定しているためです。この冗長性のために、観察された属性のほとんどの分散を説明する少数のコンポーネント(人工属性)に観察された属性を減らすことが可能であると信じています。たとえば、いくつかのサンプルの水の温度を保存する属性と、その状態(固体、液体、または気体)を保存する別の属性を含むExampleSetを想像してください。 2番目の属性が最初の属性に依存していることは簡単にわかるため、SVDは分析にとって重要ではないことを簡単に示すことができます。
RapidMinerは、主成分分析演算子などのさまざまな次元削減演算子を提供します。主成分分析手法は、SVDの特定のケースです。これは、直交変換を使用して、おそらく相関する属性の観測値のセットを、主成分と呼ばれる相関のない属性の値のセットに変換する数学的手順です。主成分の数は、元の属性の数以下です。この変換は、最初の主成分の分散ができるだけ大きくなるように定義され(データの変動を可能な限り多く考慮して)、後続の各コンポーネントは、先行するコンポーネントに直交(無相関)する必要があります。
分化
Principal Component Analysis
PCAは次元削減手続きです。 PCAはSVDの特定のケースです。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。メタデータで属性が指定されているため、入力用のデータにメタデータを添付する必要があります。 Retrieveオペレーターは、データとともにメタデータを提供します。この演算子は公称属性を処理できないことに注意してください。数値属性で機能します。
出力
- 設定出力の例(IOObject)特異値分解は入力ExampleSetで実行され、結果のExampleSetはこのポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- 前処理モデル(前処理モデル)このポートは、現在のプロセスにおけるこのオペレーターのパラメーターに関する情報を含む前処理モデルを提供します。
パラメーター
- dimensionality_reductionこのパラメーターは、どのタイプの次元削減(属性数の削減)を適用する必要があるかを示します。
- なし:このオプションを選択すると、次元の削減は実行されません。
- keep_percentage:このオプションを選択すると、指定したしきい値よりも大きい累積分散を持つすべてのコンポーネントがExampleSetから削除されます。しきい値は、パーセントしきい値パラメーターによって指定されます。
- fixed_number:このオプションを選択すると、一定数のコンポーネントのみが保持されます。保持するコンポーネントの数は、dimensionsパラメーターで指定します。
範囲:選択
- percentage_thresholdこのパラメーターは、 次元削減パラメーターが「keep percentage」に設定されている場合にのみ使用できます。累積分散がパーセントしきい値よりも大きいすべてのコンポーネントは、ExampleSetから削除されます。 範囲:実数
- ディメンションこのパラメーターは、 ディメンション削減パラメーターが「固定数」に設定されている場合にのみ使用できます。保持するコンポーネントの数は、 dimensionsパラメーターで指定します。 範囲:整数
チュートリアルプロセス
特異値分解演算子を使用したソナーデータセットの次元削減
「ソナー」データセットは、検索演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには60個の属性があることがわかります。特異値分解演算子は、「ソナー」データセットに適用されます。次元削減パラメーターは「固定数」に設定され、次元パラメーターは10に設定されます。したがって、結果のExampleSetは10次元(人工属性)で構成されます。結果ワークスペースで結果のExampleSetを確認し、属性が10個しかないことを確認できます。これらの属性は、「ソナー」データセットの元の属性ではないことに注意してください。これらの属性は、SVDプロシージャを使用して作成されました。