Principal Component Analysis (Kernel)
概要
この演算子は、PCAの非線形拡張であるカーネル主成分分析(PCA)を実行します。
詳細
カーネル主成分分析(カーネルPCA)は、カーネルメソッドの手法を使用した主成分分析(PCA)の拡張です。カーネルを使用して、PCAの元々の線形操作は、非線形マッピングでカーネルHilbert空間を再現することで行われます。積分演算子カーネル関数を使用することにより、非線形マップによる入力空間に関連する高次元の特徴空間の主成分を効率的に計算できます。結果は、非線形に変換された空間内のデータポイントのセットになります。通常の線形PCAとは対照的に、カーネルバリアントは多数の属性でも機能しますが、多数の例では低速になることに注意してください。
RapidMinerは、線形PCAを適用するための主成分分析演算子を提供します。主成分分析は、直交変換を使用して、相関する可能性のある属性の一連の観測値を、主成分と呼ばれる相関のない属性の値のセットに変換する数学的手順です。この変換は、最初の主成分の分散ができるだけ大きくなるように定義され(データの変動を可能な限り多く考慮して)、後続の各コンポーネントは、先行するコンポーネントに直交(無相関)する必要があります。
分化
Principal Component Analysis
カーネル主成分分析(カーネルPCA)は、カーネルメソッドの手法を使用した主成分分析(PCA)の拡張です。通常の線形PCAとは対照的に、カーネルバリアントは多数の属性でも機能しますが、多数の例では低速になります。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。メタデータで属性が指定されているため、入力用のデータにメタデータを添付する必要があります。 Retrieveオペレーターは、データとともにメタデータを提供します。この演算子は公称属性を処理できないことに注意してください。数値属性で機能します。
出力
- 設定出力の例(IOObject)カーネルベースの主成分分析は、入力ExampleSetで実行され、結果のExampleSetはこのポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- 前処理モデル(前処理モデル)このポートは、現在のプロセスにおけるこの演算子のパラメーターに関する情報を含む前処理モデルを提供します。
パラメーター
- kernel_typeカーネル関数のタイプは、このパラメーターを介して選択されます。次のカーネルタイプがサポートされています: ドット、ラジアル、多項式、ニューラル、anova、epachnenikov、ガウスの組み合わせ、multiquadric
- dot:ドットカーネルは、k(x、y)= x * yで定義されます。つまり、xとyの内積です。
- radial:ラジアルカーネルはexp(-g || xy || ^ 2)で定義されます。gはガンマで、カーネルガンマパラメーターで指定されます。調整可能なパラメーターガンマは、カーネルのパフォーマンスに大きな役割を果たしており、目前の問題に注意深く調整する必要があります。
- polynomial:多項式カーネルは、k(x、y)=(x * y + 1)^ dで定義されます。dは多項式の次数であり、カーネル次数パラメーターで指定されます。多項式カーネルは、すべてのトレーニングデータが正規化される問題に適しています。
- neural:ニューラルカーネルは、2層のニューラルネットtanh(ax * y + b)によって定義されます。ここで、aはアルファで、bは切片定数です。これらのパラメーターは、カーネルaおよびカーネルbパラメーターを使用して調整できます。アルファの一般的な値は1 / Nです。Nはデータ次元です。 aとbのすべての選択が有効なカーネル関数につながるわけではないことに注意してください。
- anova:anovaカーネルは、exp(-g(xy))の総和の累乗dで定義されます。ここで、gはガンマ、dは度です。ガンマと度は、それぞれカーネルガンマとカーネル度パラメーターによって調整されます。
- epachnenikov:epachnenikovカーネルは、-1〜1のuに対してこの関数(3/4)(1-u2)であり、その範囲外のuに対してゼロです。カーネルsigma1とカーネル次数の2つの調整可能なパラメーターがあります。
- gaussian_combination:これはガウスの組み合わせカーネルです。調整可能なパラメーターkernel sigma1、kernel sigma2、kernel sigma3があります。
- multiquadric:multiquadricカーネルは、|| xy || ^ 2 + c ^ 2の平方根で定義されます。調整可能なパラメーターkernel sigma1とkernel sigma shiftがあります。
範囲:選択
- kernel_gammaこれはカーネルパラメータガンマです。これは、 カーネルタイプパラメーターが放射状またはanovaに設定されている場合にのみ使用可能です。 範囲:実数
- kernel_sigma1これはカーネルパラメーターsigma1です。これは、 カーネルタイプパラメーターがepachnenikov 、 ガウスの組み合わせまたはmultiquadricに設定されている場合にのみ使用可能です。 範囲:実数
- kernel_sigma2これはカーネルパラメーターsigma2です。これは、 カーネルタイプパラメータがガウスの組み合わせに設定されている場合にのみ使用できます。 範囲:実数
- kernel_sigma3これはカーネルパラメーターsigma3です。これは、 カーネルタイプパラメータがガウスの組み合わせに設定されている場合にのみ使用できます。 範囲:実数
- kernel_shiftこれはカーネルパラメーターシフトです。これは、 カーネルタイプパラメーターがmultiquadricに設定されている場合にのみ使用できます。 範囲:実数
- kernel_degreeこれは、カーネルパラメータの次数です。これは、 カーネルタイプパラメーターがPolynomial 、 anovaまたはepachnenikovに設定されている場合にのみ使用できます。 範囲:実数
- kernel_aこれはカーネルパラメータaです。これは、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。 範囲:実数
- kernel_bこれはカーネルパラメーターbです。これは、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。 範囲:実数
チュートリアルプロセス
主成分分析(カーネル)オペレーターの概要
「多項式」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには5つの通常の属性があることがわかります。主成分分析(カーネル)演算子は、すべてのパラメーターのデフォルト値を使用してこのExampleSetに適用されます。カーネルタイプパラメータは「放射状」に設定され、カーネルガンマパラメータは1.0に設定されます。結果のExampleSetは、結果ワークスペースで確認できます。このExampleSetには異なる属性セットがあることがわかります。