RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Top Down Clustering

概要

この演算子は、内部フラットクラスタリングスキームを再帰的に適用することにより、トップダウンクラスタリングを実行します。トップダウンクラスタリングは、階層的クラスタリングの戦略です。この演算子の結果は、階層クラスターモデルです。

詳細

この演算子はネストされた演算子です。つまり、サブプロセスがあります。サブプロセスには、フラットなクラスタリング演算子(K-Means演算子など)が必要です。この演算子は、サブプロセスで提供されるクラスタリング演算子を使用して階層クラスタリングモデルを構築します。この演算子を適用するには、サブプロセスの基本的な理解が必要です。サブプロセスの基本的な理解については、サブプロセス演算子のドキュメントをご覧ください。

トップダウンクラスタリングの基本的な考え方は、すべての観測が1つのクラスターで開始され、階層が下に移動するにつれて分割が再帰的に実行されるということです。トップダウンクラスタリングは、階層的クラスタリングの戦略です。階層クラスタリング(接続ベースのクラスタリングとも呼ばれます)は、クラスターの階層を構築しようとするクラスター分析の方法です。階層的クラスタリングは、オブジェクトが遠く離れたオブジェクトよりも近くのオブジェクトに関連しているというコアアイデアに基づいています。そのため、これらのアルゴリズムは「オブジェクト」(またはExampleSetの場合は例)を接続して、距離に基づいてクラスターを形成します。クラスタの大部分は、クラスタの一部を接続するために必要な最大距離によって説明できます。異なる距離では、異なるクラスターが形成されます。これらのアルゴリズムは、データセットの単一のパーティション化を提供するのではなく、特定の距離で互いにマージするクラスターの広範な階層を提供します。

階層的クラスタリングの戦略は、一般に2つのタイプに分類されます。

  • Agglomerative:これはボトムアップのアプローチです。各観測は独自のクラスターで開始され、クラスターのペアは階層が上に移動するにつれてマージされます。このタイプのクラスタリングは、凝集性クラスタリング演算子としてRapidMinerに実装されています。
  • 分割:これはトップダウンのアプローチです。すべての観測は1つのクラスターで開始され、階層が下に移動するにつれて分割が再帰的に実行されます。

クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。これは、ラベルのないデータから情報を抽出するための手法であり、多くのさまざまなシナリオで非常に役立ちます。たとえば、同様の購入行動を持つ顧客のクラスターを見つけることに関心があるマーケティングアプリケーションなどです。

入力

  • サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。

出力

  • クラスターモデル(階層クラスターモデル)このポートは、階層クラスターモデルを提供します。実行されたクラスタリングに関する情報が含まれています。
  • クラスター化セット(IOObject)入力として指定されたExampleSetは、このポートを介して出力にわずかな変更を加えて渡されます。 idロールを持つ属性は、例を区別するために入力ExampleSetに追加されます。クラスターラベルの追加パラメーターの状態に応じて、クラスターロールを持つ属性を追加することもできます。

パラメーター

  • create_cluster_labelこのパラメーターは、クラスターラベルを作成するかどうかを指定します。このパラメーターがtrueに設定されている場合、 クラスターロールを持つ新しい属性が結果の​​ExampleSetに生成されます。そうでない場合、このオペレーターはクラスター属性を追加しません。 範囲:ブール
  • max_depthこのパラメーターは、クラスターツリーの最大の深さを指定します。 範囲:整数
  • max_leaf_sizeこのパラメーターは、各クラスターリーフ内のアイテムの最大数を指定します。 範囲:整数

チュートリアルプロセス

Ripley-Setデータセットのトップダウンクラスタリング

「Ripley-Set」データセットは、Retrieve演算子を使用してロードされます。ラベルもロードされますが、クラスター自体の構築ではなく、視覚化と比較にのみ使用されることに注意してください。このステップでブレークポイントが挿入されるため、Top Down Clustering演算子を適用する前にExampleSetを確認できます。ラベル属性以外に、「Ripley-Set」には2つの実際の属性があります。 「att1」および「att2」。このデータセットには、トップダウンクラスタリング演算子が適用されます。プロセスを実行すると、Top Down Clusteringオペレーターによって2つの新しい属性が作成されていることがわかります。 id属性は、例を明確に区別するために作成されます。クラスター属性は、サンプルが属するクラスターを示すために作成されます。各例は特定のクラスターに割り当てられます。結果のグラフビューに注意してください。アルゴリズムは、他のクラスタリングアルゴリズム(k-meansなど)として個別のグループまたはクラスターを作成していないことがわかります。代わりに、結果はクラスターの階層になります。フォルダビューでは、各クラスタのメンバーをフォルダ形式で見ることができます。フォルダーの階層であることがわかります。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル