Detect Outlier (COF)
概要
この演算子は、クラスの外れ値因子(COF)に基づいて、指定されたExampleSetの外れ値を識別します。
詳細
ECODB(拡張クラス異常値-距離ベース)アルゴリズムの主な概念は、パラメーターN (上位Nクラス異常値)およびK (最近傍の数)を指定して、ExampleSetの各インスタンスをランク付けすることです。各インスタンスのランクは、次の式を使用して検出されます。
COF = PCL(T、K)-ノルム(偏差(T))+ノルム(kDist(T))
- PCL(T、K)は、K個の最近傍のクラスラベルに関するインスタンスTのクラスラベルの確率です。
- norm(Deviation(T))およびnorm(KDist(T))は、それぞれDeviation(T)およびKDist(T)の正規化された値であり、値は[0-1]の範囲にあります。
- Deviation(T)は、インスタンスTが同じクラスのインスタンスからどれだけ逸脱するかです。インスタンスTと同じクラスに属するすべてのインスタンス間の距離を合計することで計算されます。
- KDist(T)は、インスタンスTとそのK最近傍との距離の合計です。
この演算子は、指定されたExampleSetに「outlier」という名前の新しいブール属性を追加します。この属性の値がtrueの場合、その例は外れ値であり、その逆も同様です。別の特別な属性「COF Factor」もExampleSetに追加されます。この属性は、例としてクラスの外れ値である度合いを測定します。
外れ値は、ExampleSetの残りの例から数値的に離れた例です。外れた例は、ExampleSetの他の例から著しく逸脱しているように見えるものです。外れ値は多くの場合(常にではありませんが)測定誤差を示しています。この場合、そのような例は破棄する必要があります。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のデータ生成演算子の出力です。他の演算子の出力も入力として使用できます。
出力
- 設定出力の例(IOObject)新しいブール属性「outlier」と実際の属性「COF Factor」が指定されたExampleSetに追加され、ExampleSetはこの出力ポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- number_of_neighborsこのパラメーターは、分析されるk個の最近傍のk値を指定します。このパラメーターの最小値と最大値は、それぞれ100万と100万です。 範囲:整数
- number_of_class_outliersこのパラメーターは、検索する上位n個のクラスの外れ値の数を指定します。結果のExampleSetには、外れ値と見なされるn個の例があります。このパラメーターの最小値と最大値は、それぞれ200万と100万です。 範囲:整数
- measure_typesこのパラメーターは、ポイント間の距離を測定するために使用されるメジャーのタイプを選択するために使用されます。次のオプションが使用可能です: 混合メジャー 、 名目メジャー 、 数値メジャー 、およびブレグマン発散 。 範囲:選択
- mixed_measureこのパラメーターは、 メジャータイプパラメーターが「混合メジャー」に設定されている場合に使用できます。使用可能なオプションは「混合ユークリッド距離」 範囲のみです:選択
- nominal_measureこのパラメーターは、 メジャータイプパラメーターが「nominal measure 」に設定されている場合に使用できます。入力ExampleSetに数値属性がある場合、このオプションは適用できません。この場合、「数値測定」オプションを選択する必要があります。 範囲:選択
- numeric_measureこのパラメーターは、 メジャータイプパラメーターが「数値メジャー」に設定されている場合に使用できます。入力ExampleSetにノミナル属性がある場合、このオプションは適用できません。入力ExampleSetにノミナル属性がある場合、「ノミナル測定」オプションを選択する必要があります。 範囲:選択
- divergenceこのパラメーターは、 メジャータイプパラメーターが「Bregman divergences」に設定されている場合に使用できます。 範囲:選択
- kernel_typeこのパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定されている場合にのみ使用できます。カーネル関数のタイプは、このパラメーターを介して選択されます。次のカーネルタイプがサポートされています。
- dot:ドットカーネルは、k(x、y)= x * yで定義されます。つまり、xとyの内積です。
- radial:ラジアルカーネルはexp(-g || xy || ^ 2)で定義されます。gはカーネルガンマパラメーターで指定されたガンマです。調整可能なパラメーターガンマは、カーネルのパフォーマンスに大きな役割を果たしており、目前の問題に注意深く調整する必要があります。
- polynomial:多項式カーネルは、k(x、y)=(x * y + 1)^ dで定義されます。dは多項式の次数であり、カーネル次数パラメーターで指定されます。多項式カーネルは、すべてのトレーニングデータが正規化される問題に適しています。
- neural:ニューラルカーネルは、2層のニューラルネットtanh(ax * y + b)によって定義されます。ここで、aはアルファで、bは切片定数です。これらのパラメーターは、カーネルaおよびカーネルbパラメーターを使用して調整できます。アルファの一般的な値は1 / Nです。Nはデータ次元です。 aとbのすべての選択が有効なカーネル関数につながるわけではないことに注意してください。
- sigmoid:これはシグモイドカーネルです。一部のパラメーターでは、シグモイドカーネルが無効であることに注意してください。
- anova:これはanovaカーネルです。ガンマと角度の調整可能なパラメーターがあります。
- epachnenikov:Epanechnikovカーネルは、-1〜1のuに対してこの関数(3/4)(1-u2)であり、その範囲外のuに対してゼロです。カーネルsigma1とカーネル次数の2つの調整可能なパラメーターがあります。
- gaussian_combination:これはガウスの組み合わせカーネルです。調整可能なパラメーターkernel sigma1、kernel sigma2、kernel sigma3があります。
- multiquadric:multiquadricカーネルは、|| xy || ^ 2 + c ^ 2の平方根で定義されます。調整可能なパラメーターkernel sigma1とkernel sigma shiftがあります。
範囲:選択
- kernel_gammaこれは、SVMカーネルパラメーターガンマです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターが放射状または分散分布に設定されている場合にのみ使用できます。 範囲:実数
- kernel_sigma1これはSVMカーネルパラメータsigma1です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがepachnenikov 、 ガウスの組み合わせ、またはマルチクアドリックに設定されている場合にのみ使用できます。 範囲:実数
- kernel_sigma2これはSVMカーネルパラメータsigma2です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがガウスの組み合わせに設定されている場合にのみ使用できます。 範囲:実数
- kernel_sigma3これはSVMカーネルパラメータsigma3です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがガウスの組み合わせに設定されている場合にのみ使用できます。 範囲:実数
- kernel_shiftこれは、SVMカーネルパラメーターシフトです。このパラメーターは、 数値測定パラメーターが ‘Kernel Euclidean Distance’に設定され、 カーネルタイプパラメーターがmultiquadricに設定されている場合にのみ使用できます。 範囲:実数
- kernel_degreeこれは、SVMカーネルパラメータの次数です。このパラメーターは、 数値測定パラメーターが ‘Kernel Euclidean Distance’に設定され、 カーネルタイプパラメーターがPolynomial 、 anovaまたはepachnenikovに設定されている場合にのみ使用できます。 範囲:実数
- kernel_aこれはSVMカーネルパラメータaです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。 範囲:実数
- kernel_bこれはSVMカーネルパラメータbです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。 範囲:実数
チュートリアルプロセス
ExampleSetからの外れ値の検出
データの生成演算子は、ExampleSetの生成に使用されます。ターゲット関数パラメーターは「ガウス混合クラスター」に設定されます。数の例と属性パラメーターの数は、それぞれ200と2に設定されます。結果ワークスペースでExampleSetを表示できるように、ブレークポイントがここに挿入されます。 ExampleSetの適切なプロットは、[プロットビュー]タブに切り替えると表示できます。 ExampleSetの散布図を表示するには、プロッターを「散布」、x軸を「att1」、y軸を「att2」に設定します。
異常値の検出(COF)演算子は、ExampleSetに適用されます。近隣の数とクラスの外れ値の数のパラメーターは7に設定されます。結果のExampleSetは、結果ワークスペースで表示できます。理解を深めるために、[プロットビュー]タブに切り替えます。プロッタを「散布図」に、x軸を「att1」に、y軸を「att2」に、「色の列」を「外れ値」に設定して、ExampleSetの散布図を表示します(外れ値は赤でマークされます)。