Cluster Distance Performance
概要
この演算子は、重心ベースのクラスタリング手法のパフォーマンス評価に使用されます。この演算子は、クラスター重心に基づいてパフォーマンス基準値のリストを提供します。
詳細
K-MeansやK-Medoidsのような重心ベースのクラスタリング演算子は、重心クラスターモデルとクラスターセットを生成します。重心クラスターモデルには、実行されたクラスタリングに関する情報が含まれています。どの例がどのクラスターの一部であるかがわかります。また、各クラスターの重心に関する情報もあります。クラスター距離パフォーマンスオペレーターは、この重心クラスターモデルとクラスター化されたセットを入力として受け取り、クラスター重心に基づいてモデルのパフォーマンスを評価します。 2つのパフォーマンス測定値がサポートされます。クラスター距離内の平均とDavies-Bouldinインデックスです。これらのパフォーマンス測定値は、パラメーターで説明されています。
クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。これは、ラベルのないデータから情報を抽出する手法であり、同様の購入行動を持つ顧客のクラスターを見つけることに関心があるマーケティングアプリケーションなど、さまざまなシナリオで非常に役立ちます。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。添付のサンプルプロセスのK-Medoidsオペレーターの出力です。
- クラスターモデル (セントロイドクラスターモデル)この入力ポートは、図心クラスターモデルを想定しています。添付のサンプルプロセスのK-Medoidsオペレーターの出力です。重心クラスターモデルには、実行されたクラスタリングに関する情報が含まれています。どの例がどのクラスターの一部であるかを示します。また、各クラスターの重心に関する情報もあります。
- パフォーマンス (パフォーマンスベクトル)この入力ポートには、パフォーマンスベクトルが必要です。
出力
- パフォーマンス(パフォーマンスベクトル)クラスターモデルのパフォーマンスが評価され、結果のパフォーマンスベクターがこのポートを介して配信されます。パフォーマンスベクトルは、パフォーマンス基準値のリストです。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- クラスターモデル(セントロイドクラスターモデル)入力として与えられた重心クラスターモデルは、このポートを介して出力に変更されることなく渡されます。これは通常、他のオペレーターで同じ重心クラスターモデルを再利用するか、結果ワークスペースで表示するために使用されます。
パラメーター
- main_criterionこのパラメーターは、パフォーマンス評価に使用する主な基準を指定します。
- avg._within_centroid_distance:クラスター内の平均距離は、重心とクラスターのすべての例の間の距離を平均することによって計算されます。
- davies_bouldin:クラスター内距離が短い(クラスター内類似度が高い)およびクラスター間距離が高い(クラスター間類似度が低い)クラスターを生成するアルゴリズムは、Davies–Bouldinインデックスが低くなります。 Davies–Bouldinインデックスが最小のクラスターは、この基準に基づいて最適なアルゴリズムと見なされます。 Davies-Bouldinインデックスの計算では、空のクラスターは無視されることに注意してください。
範囲:選択
- main_criterion_onlyこのパラメーターは、主要な基準のみがパフォーマンスベクトルによって配信される必要があるかどうかを指定します。主基準は、 主基準パラメーターRange:booleanによって指定されます
- normalizeこのパラメーターは、結果を正規化する必要があるかどうかを指定します。 trueに設定すると、基準はフィーチャの数で除算されます。 範囲:ブール
- maximizeこのパラメーターは、結果を最大化する必要があるかどうかを指定します。 trueに設定すると、結果にマイナス1が乗算されません。 範囲:ブール
チュートリアルプロセス
K-Medoidsクラスタリングモデルのパフォーマンスの評価
「Ripley-Set」データセットは、Retrieve演算子を使用してロードされます。ラベルもロードされますが、視覚化と比較にのみ使用され、クラスター自体の構築には使用されないことに注意してください。このステップでブレークポイントが挿入されるため、K-Medoids演算子を適用する前にExampleSetを確認できます。 「Ripley-Set」には2つの実際の属性があります。 「att1」および「att2」。 K-Medoids演算子は、すべてのパラメーターのデフォルト値を使用して、このデータセットに適用されます。 K-Medoids演算子の結果を確認できるように、ブレークポイントがこのステップに挿入されます。 K-Medoids演算子によって2つの新しい属性が作成されていることがわかります。 id属性は、例を明確に区別するために作成されます。クラスター属性は、サンプルが属するクラスターを示すために作成されます。パラメーターkが2に設定されたため、2つのクラスターのみが可能です。これが、各例が「cluster_0」または「cluster_1」に割り当てられている理由です。また、このデータのプロットビューにも注意してください。プロットビューで、アルゴリズムが2つの別個のグループを作成した様子を明確に見ることができます。クラスターモデルは、クラスターモデルの出力ポートからも配信されます。実行されたクラスタリングに関する情報があります。フォルダービューでは、各クラスターのメンバーをフォルダー形式で確認できます。重心に関する情報は、[重心テーブル]タブおよび[重心プロットビュー]タブで確認できます。
このクラスタリングモデルのパフォーマンスを測定するには、クラスター距離パフォーマンス演算子を適用します。 K-Medoidsオペレーターによって生成されたクラスターモデルとクラスターセットは、このモデルのパフォーマンスを評価し、パフォーマンス基準値を持つパフォーマンスベクトルを提供するクラスター距離パフォーマンスオペレーターへの入力として提供されます。結果のパフォーマンスベクトルは、結果ワークスペースで確認できます。