RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Detect Outlier (LOF)

概要

この演算子は、ローカルの外れ値因子(LOF)に基づいて、指定されたExampleSetの外れ値を識別します。 LOFは局所密度の概念に基づいており、局所性は密度を推定するために距離が使用されるk個の最近傍によって与えられます。オブジェクトの局所密度をその近隣の局所密度と比較することにより、類似した密度の領域、および近隣よりも実質的に低い密度を持つポイントを特定できます。これらは外れ値と見なされます

詳細

この演算子は、LOF外れ値検索を実行します。 LOUN外れ値またはオブジェクトごとの局所的な外れ値因子を含む外れ値は、Breunig、Kriegelなどによる密度ベースの外れ値です。名前で示されているように、局所的な外れ値因子は局所密度の概念に基づいており、局所性は密度を推定するために距離が使用されるk個の最近傍によって与えられます。オブジェクトの局所密度をその近隣の局所密度と比較することにより、類似した密度の領域、および近隣よりも実質的に低い密度を持つポイントを特定できます。これらは外れ値と見なされます。局所密度は、近隣からポイントに「到達」できる典型的な距離によって推定されます。 LOFで使用される「到達可能距離」の定義は、クラスター内でより安定した結果を生成するための追加の手段です。

外れ値を見つける方法は、オブジェクトの密度と相互の関係(ローカル到達可能性密度と呼ばれる)の測定に基づいています。オブジェクトとそのk最近傍(つまり、k距離近傍のオブジェクト)のローカル到達可能密度の平均比に基づいて、ローカル外れ値係数(LOF)が計算されます。アプローチは、(実際に「K」を指定する)パラメータMinPtsを受け取り、それが(結合および上部MinPtsに結合した低級)範囲MinPts内のオブジェクトの最大LOFSを使用します。

この演算子は、 距離関数パラメーターで指定できる通常のユークリッド距離に加えて、コサイン、逆コサイン、角度、平方距離をサポートします。最初のステップでは、オブジェクトはコンテナーにグループ化されます。各オブジェクトについて、他のすべてのオブジェクトの半径スクリーニングを使用して、そのオブジェクトと、その距離で指定された同じ半径上の別のオブジェクト(またはオブジェクトのグループ)間の利用可能なすべての距離がコンテナに関連付けられます。そのコンテナには、距離情報と、その距離内のオブジェクトのリスト(通常は数個のみ)と、コンテナ内にあるオブジェクトの数に関する情報が含まれます。

2番目のステップでは、3つのことが行われます。各オブジェクトのコンテナは、コンテナ内のオブジェクトリストのカーディナリティ(=その距離)に従って昇順でカウントされ、各オブジェクトとその中のオブジェクトのk距離を見つけます。 k-距離(より小さな距離を持つ後​​続のすべてのコンテナ内のすべてのオブジェクト)。この情報を使用して、各オブジェクトペア(オブジェクトとk距離のオブジェクト)の実際の距離とk距離の最大値を使用し、k近傍のカーディナリティで平均化してから、ローカル到達可能性密度を計算します。逆数。 LOFは、k近傍のすべてのオブジェクトとオブジェクト自体のMinPts-local reachability-densityの比率を平均することにより、範囲内の各MinPts値(実際には上限まで)ごとに計算されます。 MinPts範囲の最大LOFは、各オブジェクトに最終LOFとして渡されます。その後、LOFは、演算子が返すExampleSetの特別な実数値の外れ値属性の値として追加されます。

外れ値は、ExampleSetの残りの例から数値的に離れた例です。外れた例は、ExampleSetの他の例から著しく逸脱しているように見えるものです。外れ値は多くの場合(常にではありませんが)測定誤差を示しています。この場合、そのような例は破棄する必要があります。

入力

  • サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のデータ生成演算子の出力です。他の演算子の出力も入力として使用できます。

出力

  • 設定出力の例(IOObject)新しい属性「outlier」が指定されたExampleSetに追加され、この出力ポートを介して配信されます。
  • オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • minimal_points_lower_boundこのパラメーターは、外れ値テストのMinPtsの下限を指定します。 範囲:整数
  • minimal_points_upper_boundこのパラメーターは、外れ値テストのMinPtsの上限を指定します。 範囲:整数
  • distance_functionこのパラメーターは、2つのオブジェクト間の距離を計算するために使用される距離関数を指定します。 範囲:選択

チュートリアルプロセス

ExampleSetからの外れ値の検出

データの生成演算子は、ExampleSetの生成に使用されます。ターゲット関数パラメーターは「ガウス混合クラスター」に設定されます。数の例と属性パラメーターの数は、それぞれ200と2に設定されます。結果ワークスペースでExampleSetを表示できるように、ブレークポイントがここに挿入されます。 ExampleSetの適切なプロットは、[プロットビュー]タブに切り替えると表示できます。 ExampleSetの散布図を表示するには、プロッターを「散布」、x軸を「att1」、y軸を「att2」に設定します。

外れ値の検出(LOF)演算子は、すべてのパラメーターのデフォルト値とともにこのExampleSetに適用されます。最小点の下限パラメーターと最小点の上限パラメーターは、それぞれ10と20に設定されます。結果のExampleSetは、結果ワークスペースで確認できます。理解を深めるために、[プロットビュー]タブに切り替えます。 ExampleSetの散布図を表示するには、プロッターを「散布」、x軸を「att1」、y軸を「att2」、「色の列」を「外れ値」に設定します。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル