Detect Outlier (Densities)
概要
この演算子は、データ密度に基づいて、指定されたExampleSetの外れ値を識別します。距離Dよりも遠くにあるすべてのオブジェクトの少なくともpの割合を持つすべてのオブジェクトは、外れ値と見なされます。
詳細
外れ値の検出(密度)演算子は、 指定されたExampleSetのDB(p、D)-外れ値を計算する外れ値検出アルゴリズムです。 DB(p、D)-外れ値は、すべてのオブジェクトの少なくともpの割合から少なくともDの距離にあるオブジェクトです。 2つの実数値パラメーターpとDは、それぞれ比例パラメーターと距離パラメーターで指定できます。 DB(p、D) -外れ値は、KnorrとNgによる距離ベースの外れ値です。この演算子は、グローバルな同種の外れ値検索を実装します。
この演算子は、指定されたExampleSetに「outlier」という名前の新しいブール属性を追加します。この属性の値がtrueの場合、その例は外れ値であり、その逆も同様です。この演算子では、さまざまな距離関数がサポートされています。目的の距離関数は、 距離関数パラメーターによって選択できます。
外れ値は、ExampleSetの残りの例から数値的に離れた例です。外れた例は、ExampleSetの他の例から著しく逸脱しているように見えるものです。外れ値は多くの場合(常にではありませんが)測定誤差を示しています。この場合、そのような例は破棄する必要があります。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のデータ生成演算子の出力です。他の演算子の出力も入力として使用できます。
出力
- 設定出力の例(IOObject)新しいブール属性「outlier」が指定されたExampleSetに追加され、ExampleSetはこの出力ポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- distanceこのパラメーターは、 DB(p、D)-outliersの計算のための距離Dパラメーターを指定します。 範囲:実数
- proportionこのパラメーターは、 DB(p、D)-outliersの計算用のプロポーションpパラメーターを指定します。 範囲:実数
- distance_functionこのパラメーターは、2つの例の間の距離を計算するために使用される距離関数を指定します。 範囲:選択
チュートリアルプロセス
ExampleSetからの外れ値の検出
データの生成演算子は、ExampleSetの生成に使用されます。ターゲット関数パラメーターは「ガウス混合クラスター」に設定されます。数の例と属性パラメーターの数は、それぞれ200と2に設定されます。結果ワークスペースでExampleSetを表示できるように、ブレークポイントがここに挿入されます。 ExampleSetの適切なプロットは、[プロットビュー]タブに切り替えると表示できます。 ExampleSetの散布図を表示するには、プロッターを「散布」、x軸を「att1」、y軸を「att2」に設定します。
異常値の検出(密度)演算子は、ExampleSetに適用されます。距離と割合のパラメーターは、それぞれ4.0と0.8に設定されます。結果のExampleSetは、結果ワークスペースで表示できます。理解を深めるために、[プロットビュー]タブに切り替えます。プロッタを「散布図」に、x軸を「att1」に、y軸を「att2」に、「色の列」を「外れ値」に設定して、ExampleSetの散布図を表示します(外れ値は赤でマークされます)。外れ値の数は、ランダム化によって異なる場合があります。プロセスのランダムシードパラメータが1997に設定されている場合、5つの外れ値が表示されます。