Flatten Clustering
概要
この演算子は、指定された階層クラスタリングモデルからフラットクラスタリングモデルを作成します。クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。
詳細
Flatten Clusteringオペレーターは、目的のクラスター数(クラスター数パラメーターで指定)に達するまでノードを距離順に拡張することにより、指定された階層クラスターモデルからフラットクラスターモデルを作成します。 RapidMinerでは、Agglomerative Clusteringオペレーターのようなオペレーターが階層クラスターモデルを提供します。 Flatten Clusteringオペレーターは、この階層クラスターモデルとExampleSetを入力として受け取り、フラットクラスターモデルとクラスター化されたExampleSetを返します。 RapidMinerには、フラットクラスタリングを実行する演算子(K-Means演算子など)も用意されています。
フラットクラスタリングは、クラスターを相互に関連付ける明示的な構造を持たないクラスターのフラットセットを作成します。階層クラスタリングは、クラスターの階層を作成します。フラットクラスタリングは効率的で概念的にシンプルですが、多くの欠点があります。これらのアルゴリズムは、フラットな非構造化クラスターのセットを返し、入力として事前に指定された数のクラスターを必要とし、非決定的です。階層的クラスタリングは、階層を出力します。これは、フラットクラスタリングによって返される非構造化クラスターセットよりも有益な構造です。階層クラスタリングでは、クラスターの数を事前に指定する必要はなく、情報検索で使用されているほとんどの階層アルゴリズムは決定論的です。階層的クラスタリングのこれらの利点には、効率の低下という代償が伴います。
クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。これは、ラベルのないデータから情報を抽出するための手法であり、多くのさまざまなシナリオで非常に役立ちます。たとえば、同様の購入行動を持つ顧客のクラスターを見つけることに関心があるマーケティングアプリケーションなどです。
入力
- 階層 ( 階層 クラスターモデル)このポートは、階層クラスターモデルを想定しています。 Agglomerative Clustering演算子のような階層的クラスタリング演算子は、このようなモデルを生成します。
- サンプルセット (IOObject)入力ポートにはExampleSetが必要です。これは、添付のプロセス例の凝集クラスタリング演算子の出力です。他の演算子の出力も入力として使用できます。
出力
- フラット (クラスターモデル)このポートは、実行されたクラスタリングに関する情報を持つフラットクラスターモデルを提供します。どの例がどのクラスターの一部であるかを示します。
- サンプルセット (IOObject)入力として指定されたExampleSetは、このポートを介して出力にわずかな変更を加えて渡されます。 idロールを持つ属性は、例を区別するために入力ExampleSetに追加されます。
パラメーター
- number_of_clustersこのパラメーターは、形成するクラスターの希望数を指定します。多数のクラスターを形成するための厳格なルールはありません。しかし、一般的には、少数のクラスターをバランスの取れた方法で周囲に散らばっている(あまり散らばっていない)ことが望ましいです。 範囲:整数
- add_as_label trueの場合、クラスターIDはクラスターロールではなくラベルロールの属性に保存されます 。 範囲:ブール
- remove_unlabeled trueに設定すると、ラベルのないサンプルが削除されます。 範囲:ブール
チュートリアルプロセス
凝集クラスターモデルの平坦化
「アイリス」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがこのステップに挿入されます。 Aggregomerative Clustering演算子は、このExampleSetに適用されます。プロセスを実行し、結果ワークスペースに切り替えます。結果のグラフビューに注意してください。アルゴリズムは、他のクラスタリングアルゴリズム(k-meansなど)として個別のグループまたはクラスターを作成していないことがわかります。代わりに、結果はクラスターの階層になります。フォルダビューでは、各クラスタのメンバーをフォルダ形式で見ることができます。フォルダーの階層であることがわかります。樹形図ビューには、このクラスタリングの樹形図が表示され、単一要素クラスターを段階的に結合してクラスターの階層を作成する方法が示されます。この演算子によって返されるExampleSetと階層クラスターモデルは、Flatten Clustering演算子への入力として提供されます。
Flatten Clusteringオペレーターは、すべてのパラメーターにデフォルト値で適用されます。プロセスを実行すると、2つの新しい属性がFlatten Clusteringオペレーターによって作成されていることがわかります。 id属性は、例を明確に区別するために作成されます。クラスター属性は、サンプルが属するクラスターを示すために作成されます。クラスターのパラメーター数が3に設定されたため、3つのクラスターのみが可能です。これが、各例が「cluster_0」、「cluster_1」または「cluster_2」に割り当てられている理由です。また、このデータのプロットビューにも注意してください。プロットビューでアルゴリズムが3つの個別のグループを作成した方法を明確に確認できます。クラスターモデルは、クラスターモデルの出力ポートからも配信されます。実行されたクラスタリングに関する情報が含まれています。フォルダービューでは、各クラスターのメンバーをフォルダー形式で表示できます。