RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Item Distribution Performance

概要

この演算子は、フラットクラスタリング手法のパフォーマンス評価に使用されます。例の分布に基づいてクラスターモデルを評価します。

詳細

K-MeansやK-Medoidsなどのクラスタリング演算子は、フラットなクラスターモデルとクラスター化されたセットを生成します。クラスターモデルには、実行されたクラスタリングに関する情報が含まれています。どの例がどのクラスターの一部であるかがわかります。 Item Distribution Performanceオペレーターは、このクラスターモデルを入力として受け取り、例の分布に基づいてモデルのパフォーマンスを評価します。つまり、例がどのようにクラスターに分散されているかを評価します。平方和とジニ係数の2つの分布指標がサポートされています。これらの分布指標は、パラメーターで説明されています。フラットクラスタリングは、クラスターを相互に関連付ける明示的な構造を持たないクラスターのフラットセットを作成します。一方、階層クラスタリングは、クラスターの階層を作成します。この演算子は、フラットクラスタモデルを生成する演算子(K-MeansまたはK-Medoids演算子など)によって生成されたモデルにのみ適用できます。クラスターの階層を生成するオペレーター(Agglomerative Clusteringオペレーターなど)によって作成されたモデルには適用できません。

クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。これは、ラベルのないデータから情報を抽出する手法であり、同様の購入行動を持つ顧客のクラスターを見つけることに関心があるマーケティングアプリケーションなど、さまざまなシナリオで非常に役立ちます。

入力

  • クラスターモデル (クラスターモデル)この入力ポートは、フラットクラスターモデルを想定しています。添付のサンプルプロセスのK-Medoidsオペレーターの出力です。クラスターモデルには、実行されたクラスタリングに関する情報が含まれています。どの例がどのクラスターの一部であるかを示します。
  • パフォーマンスベクトル (パフォーマンスベクトル)この入力ポートには、パフォーマンスベクトルが必要です。

出力

  • クラスターモデル(クラスターモデル)入力として与えられたクラスターモデルは、このポートを介して出力に変更されることなく渡されます。通常、これは同じクラスターモデルを他のオペレーターで再利用したり、結果ワークスペースで表示したりするために使用されます。
  • パフォーマンスベクトル(パフォーマンスベクトル)クラスターモデルのパフォーマンスが評価され、結果のパフォーマンスベクターがこのポートを介して配信されます。パフォーマンス基準値のリストです。

パラメーター

  • measureこのパラメータは、適用するアイテム分布メジャーを指定します。次の2つのオプションがあります。
    • sumofsquares:このオプションが選択されている場合、二乗の合計がアイテム分布測定として使用されます。
    • ginicoefficient:Gini係数(GiniインデックスまたはGini比とも呼ばれる)は、統計的分散の尺度です。頻度分布の値間の不等式を測定します。ジニ係数が低いと、より均等な分布を示し、0は完全な平等に対応し、ジニ係数がより高いと、より不均等な分布を示し、1は完全な不平等に対応します。

    範囲:選択

チュートリアルプロセス

K-Medoidsクラスタリングモデルのパフォーマンスの評価

「Ripley-Set」データセットは、Retrieve演算子を使用してロードされます。ラベルもロードされますが、視覚化と比較にのみ使用され、クラスター自体の構築には使用されないことに注意してください。このステップでブレークポイントが挿入されるため、K-Medoids演算子を適用する前にExampleSetを確認できます。 「Ripley-Set」には2つの実際の属性があります。 「att1」および「att2」。 K-Medoids演算子は、すべてのパラメーターのデフォルト値を使用して、このデータセットに適用されます。 K-Medoids演算子の結果を確認できるように、ブレークポイントがこのステップに挿入されます。 K-Medoids演算子によって2つの新しい属性が作成されていることがわかります。 id属性は、例を明確に区別するために作成されます。クラスター属性は、サンプルが属するクラスターを示すために作成されます。パラメーターkが2に設定されたため、2つのクラスターのみが可能です。これが、各例が「cluster_0」または「cluster_1」に割り当てられている理由です。クラスターモデルは、クラスターモデルの出力ポートからも配信されます。実行されたクラスタリングに関する情報があります。フォルダービューでは、各クラスターのメンバーをフォルダー形式で、セントロイドテーブルタブおよびセントロイドプロットビュータブでセントロイドに関する情報を確認できます。

Item Distribution Performanceオペレーターは、サンプルがクラスター全体にどの程度適切に分散されているかに基づいて、このクラスタリングモデルのパフォーマンスを測定するために適用されます。 K-Medoidsオペレーターによって作成されたクラスターモデルは、このモデルのパフォーマンスを評価し、分布の例に基づいて測定されたパフォーマンスを持つパフォーマンスベクトルを提供するItem Distribution Performanceオペレーターへの入力として提供されます。結果のパフォーマンスベクトルは、結果ワークスペースで確認できます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル