Generalized Hebbian Algorithm
概要
この演算子は、主成分を計算するための反復法であるGeneralized Hebbian Algorithm(GHA)の実装です。ユーザーは、必要な数の主成分を手動で指定できます。
詳細
Generalized Hebbian Algorithm(GHA)は、主に主成分分析に適用される教師なし学習用の線形フィードフォワードニューラルネットワークモデルです。計算の観点から、共分散行列を直接計算する必要のない反復法により固有値問題を解くことが有利になる場合があります。これは、ExampleSetに多くの属性(数百または数千)が含まれる場合に便利です。
主成分分析(PCA)は、属性削減手順です。多数の属性(場合によっては多数の属性)のデータを取得し、それらの属性に冗長性があると考えられる場合に役立ちます。この場合、冗長性とは、一部の属性が相互に関連付けられていることを意味します。これは、おそらく同じ構成を測定しているためです。この冗長性のため、観測された属性のほとんどの分散を説明する少数の主成分(人工属性)に観測された属性を減らすことが可能であると信じています。主成分分析は、直交変換を使用して、相関する可能性のある属性の一連の観測値を、主成分と呼ばれる相関のない属性の値のセットに変換する数学的手順です。主成分の数は、元の属性の数以下です。この変換は、最初の主成分の分散ができるだけ大きくなるように定義され(データの変動を可能な限り多く考慮して)、後続の各コンポーネントは、先行するコンポーネントに直交(無相関)する必要があります。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。メタデータで属性が指定されているため、入力用のデータにメタデータを添付する必要があります。 Retrieveオペレーターは、データとともにメタデータを提供します。この演算子は公称属性を処理できないことに注意してください。数値属性で機能します。
出力
- サンプルセット(IOObject)Generalized Hebbian Algorithmは入力ExampleSetで実行され、結果のExampleSetはこのポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- 前処理モデル(GHAモデル)このポートはGHAモデルを提供します。
パラメーター
- number_of_components保持するコンポーネントの数は、 number of componentsパラメーターによって指定されます。 -1に設定すると、結果のExampleSetの主成分の数は、元のExampleSetの属性の数と等しくなります。 範囲:整数
- number_of_iterationsこのパラメーターは、更新ルールを適用する反復回数を指定します。 範囲:整数
- learning_rateこのパラメーターは、GHAの学習率を指定します。 範囲:実数
- use_local_random_seedこのパラメーターは、ランダム化にローカルランダムシードを使用する必要があるかどうかを示します。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。 use local random seedパラメータがtrueに設定されている場合にのみ使用できます。 範囲:整数
チュートリアルプロセス
GHA演算子を使用した多項式データセットの次元削減
「多項式」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには5つの通常の属性があることがわかります。 Generalized Hebbian Algorithm演算子は、「多項式」データセットに適用されます。コンポーネント数パラメーターは3に設定されます。したがって、結果のExampleSetは3つの主要コンポーネントで構成されます。他のすべてのパラメーターはデフォルト値で使用されます。プロセスを実行すると、5つの属性を持つExampleSetが3つの主要コンポーネントを持つExampleSetに削減されていることがわかります。