RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Detect Outlier (Distances)

概要

この演算子は、 k個の最近傍までの距離に基づいて、指定されたExampleSet内のn個の外れ値を識別します。変数nおよびkは、パラメーターを介して指定できます。

詳細

この演算子は、「大規模データセットから外れ値をマイニングするための効率的なアルゴリズム」でRamaswamy、Rastogi、およびShimが推奨する外れ値検出アプローチに従って外れ値検索を実行します。彼らの論文では、 k番目の最近傍からの距離に基づいた距離ベースの外れ値の定式化が提案されています。各ポイントは、 k番目の最近傍への距離に基づいてランク付けされ、このランキングの上位nポイントは外れ値であると宣言されます。 kおよびnの値は、それぞれ、近傍 数と外れ値パラメーターのによって指定できます。 「これ以上のK点よりもあれば、データセット内の点Pが点2つのパラメータkおよびdの外れ値:この検索は、簡単な言葉であるシンプルでクノールおよびンによる外れ値のための直感的な距離ベースの定義に基づいていますデータセットは、 p ‘からd以下の距離にあります。

この演算子は、指定されたExampleSetに「outlier」という名前の新しいブール属性を追加します。この属性の値がtrueの場合、その例は外れ値であり、その逆も同様です。 n個の例では、「outlier」属性の値がtrueになります( nは、 outliersパラメーター指定された値です)。この演算子では、さまざまな距離関数がサポートされています。目的の距離関数は、 距離関数パラメーターによって選択できます。

外れ値は、ExampleSetの残りの例から数値的に離れた例です。外れた例は、ExampleSetの他の例から著しく逸脱しているように見えるものです。外れ値は多くの場合(常にではありませんが)測定誤差を示しています。この場合、そのような例は破棄する必要があります。

入力

  • サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のデータ生成演算子の出力です。他の演算子の出力も入力として使用できます。

出力

  • 設定出力の例(IOObject)新しいブール属性「outlier」が指定されたExampleSetに追加され、ExampleSetはこの出力ポートを介して配信されます。
  • オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • number_of_neighborsこのパラメーターは、分析されるk番目の最近傍のk値を指定します。このパラメーターの最小値と最大値は、それぞれ100万と100万です。 範囲:整数
  • number_of_outliersこのパラメーターは、検索する上位n個の外れ値の数を指定します。結果のExampleSetには、外れ値と見なされるn個の例があります。このパラメーターの最小値と最大値は、それぞれ200万と100万です。 範囲:整数
  • distance_functionこのパラメーターは、2つの例の間の距離を計算するために使用される距離関数を指定します。 範囲:選択

チュートリアルプロセス

ExampleSetからの外れ値の検出

データの生成演算子は、ExampleSetの生成に使用されます。ターゲット関数パラメーターは「ガウス混合クラスター」に設定されます。数の例と属性パラメーターの数は、それぞれ200と2に設定されます。結果ワークスペースでExampleSetを表示できるように、ブレークポイントがここに挿入されます。 ExampleSetの適切なプロットは、[プロットビュー]タブに切り替えると表示できます。 ExampleSetの散布図を表示するには、プロッターを「散布」、x軸を「att1」、y軸を「att2」に設定します。

このExampleSetには、外れ値の検出(距離)演算子が適用されます。近傍数と異常値の数のパラメーターはそれぞれ4と12に設定されます。したがって、結果のExampleSetの12の例は、「outlier」属性に真の値を持ちます。これは、結果ワークスペースでExampleSetを表示することで確認できます。理解を深めるために、[プロットビュー]タブに切り替えます。プロッタを「散布図」に、x軸を「att1」に、y軸を「att2」に、「色の列」を「外れ値」に設定して、ExampleSetの散布図を表示します(外れ値は赤でマークされます)。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル