RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Cluster Density Performance

概要

この演算子は、重心ベースのクラスタリング手法のパフォーマンス評価に使用されます。この演算子は、クラスター密度に基づいてパフォーマンス基準値のリストを提供します。

詳細

K-MeansやK-Medoidsのような重心ベースのクラスタリング演算子は、重心クラスターモデルとクラスターセットを生成します。重心クラスターモデルには、実行されたクラスタリングに関する情報が含まれています。どの例がどのクラスターの一部であるかがわかります。また、各クラスターの重心に関する情報もあります。クラスター密度パフォーマンスオペレーターは、この重心クラスターモデルとクラスター化されたセットを入力として受け取り、クラスター密度に基づいてモデルのパフォーマンスを評価します。この演算子は入力としてSimilarityMeasureオブジェクトも必要とすることに注意することが重要です。この演算子は、クラスターの類似性/距離内の平均に基づいた非階層クラスターモデルの評価に使用されます。これは、クラスターの例の各ペア間のすべての類似性/距離を平均することによって計算されます。

クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。これは、ラベルのないデータから情報を抽出する手法であり、同様の購入行動を持つ顧客のクラスターを見つけることに関心があるマーケティングアプリケーションなど、さまざまなシナリオで非常に役立ちます。

入力

  • サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例の類似性へのデータ演算子の出力です。
  • 距離測定 (類似度測定)この入力ポートにはSimilarityMeasureオブジェクトが必要です。これは、添付のプロセス例の類似性へのデータ演算子の出力です。
  • パフォーマンスベクトル (パフォーマンスベクトル)このオプションの入力ポートには、パフォーマンスベクトルが必要です。パフォーマンスベクトルは、パフォーマンス基準値のリストです。
  • クラスターモデル (セントロイドクラスターモデル)この入力ポートは、図心クラスターモデルを想定しています。これは、添付のプロセス例のK-Means演算子の出力です。重心クラスターモデルには、実行されたクラスタリングに関する情報が含まれています。どの例がどのクラスターの一部であるかを示します。また、各クラスターの重心に関する情報もあります。

出力

  • サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力を変更することなく渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
  • パフォーマンスベクトル(パフォーマンスベクトル)クラスタモデルのパフォーマンスが評価され、結果のパフォーマンスベクトルがこのポートを介して配信されます。パフォーマンスベクトルは、パフォーマンス基準値のリストです。

チュートリアルプロセス

K-Meansクラスタリングモデルのパフォーマンスの評価

「Ripley-Set」データセットは、Retrieve演算子を使用してロードされます。ラベルもロードされますが、視覚化と比較にのみ使用され、クラスターの構築には使用されないことに注意してください。このステップでブレークポイントが挿入されるため、K-Means演算子を適用する前にExampleSetを確認できます。 「Ripley-Set」には2つの実際の属性があります。 「att1」および「att2」。 K-Means演算子は、すべてのパラメーターのデフォルト値を使用してこのデータセットに適用されます。このステップでブレークポイントが挿入されるため、K-Means演算子の結果を確認できます。 2つの新しい属性がK-Means演算子によって作成されていることがわかります。 id属性は、例を明確に区別するために作成されます。クラスター属性は、サンプルが属するクラスターを示すために作成されます。パラメーターkが2に設定されたため、2つのクラスターのみが可能です。これが、各例が「cluster_0」または「cluster_1」に割り当てられている理由です。

Data to Similarity演算子は、結果のExampleSetに適用されます。これにより、SimilarityMeasureオブジェクトが生成されます。クラスター化されたExampleSet、クラスターモデル、および類似度測定オブジェクトは、クラスター密度パフォーマンスオペレーターへの入力として提供されます。 Cluster Density Performanceオペレーターは、このモデルのパフォーマンスを評価し、パフォーマンス基準値を持つパフォーマンスベクトルを提供します。結果のパフォーマンスベクトルは、結果ワークスペースで確認できます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル