Random Clustering
概要
この演算子は、指定されたExampleSetのランダムなフラットクラスタリングを実行します。クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。
詳細
この演算子は、指定されたExampleSetのランダムなフラットクラスタリングを実行します。このアルゴリズムは、すべてのクラスターが空でないことを保証するものではないことに注意してください。この演算子は、クラスター属性の追加パラメーターがtrueに設定されている場合、結果のExampleSetにクラスター属性を作成します。この演算子はランダムに例をサンプルに割り当てることに注意することが重要です。適切なクラスタリングが必要な場合は、K-Means演算子のようなクラスタリングアルゴリズムを実装する演算子を使用してください。
クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。クラスタリングは、ラベル付けされていないデータから情報を抽出する手法です。クラスタリングは、多くの異なるシナリオで非常に役立ちます。たとえば、マーケティングアプリケーションで、同様の購入行動を持つ顧客のクラスターを見つけることに関心がある場合があります。
入力
- サンプルセット (IOObject)入力ポートにはExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。
出力
- クラスターモデル(クラスターモデル)このポートは、実行されたクラスタリングに関する情報を持つクラスターモデルを提供します。どの例がどのクラスターの一部であるかを示します。
- クラスター化セット(IOObject)入力として指定されたExampleSetは、このポートを介して出力にわずかな変更を加えて渡されます。 idロールを持つ属性は、例を区別するために入力ExampleSetに追加されます。クラスター属性の追加パラメーターの状態に応じて、クラスターロールを持つ属性を追加することもできます。
パラメーター
- add_cluster_attribute有効な場合、 クラスターの役割を持つ新しい属性がこのオペレーターで直接生成されます。それ以外の場合、このオペレーターはクラスター属性を追加しません。後者の場合、モデルの適用演算子を使用してクラスター属性を生成する必要があります 。 範囲:ブール
- add_as_label trueの場合、クラスターIDはクラスターロールではなくラベルロールの属性に保存されます ( クラスター属性パラメーターの追加を参照)。 範囲:ブール
- remove_unlabeled trueに設定すると、ラベルのないサンプルが削除されます。 範囲:ブール
- number_of_clustersこのパラメーターは、形成するクラスターの希望数を指定します。形成するクラスターの数に厳密な規則はありません。しかし、一般的には、少数のクラスターをバランスの取れた方法で周囲に散らばっている(あまり散らばっていない)ことが望ましいです。 範囲:整数
- use_local_random_seedこのパラメーターは、ランダム化にローカルランダムシードを使用する必要があるかどうかを示します。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
チュートリアルプロセス
Ripley-Setデータセットのランダムクラスタリング
多くの場合、ターゲット属性(つまり、ラベル)を定義できず、データは自動的にグループ化される必要があります。この手順は、クラスタリングと呼ばれます。 RapidMinerは、他の学習スキームとまったく同じ方法で使用できる幅広いクラスタリングスキームをサポートしています。これには、すべての前処理演算子との組み合わせが含まれます。
このプロセス例では、「Ripley-Set」データセットはRetrieve演算子を使用してロードされます。ラベルもロードされますが、クラスター自体の構築ではなく、視覚化と比較にのみ使用されることに注意してください。このステップでブレークポイントが挿入されるため、ランダムクラスタリング演算子を適用する前にExampleSetを確認できます。ラベル属性の他に、「Ripley-Set」には2つの実際の属性があります。 「att1」および「att2」。ランダムクラスタリング演算子は、すべてのパラメーターのデフォルト値を使用してこのデータセットに適用されます。プロセスを実行すると、ランダムクラスタリング演算子によって2つの新しい属性が作成されていることがわかります。 id属性は、例を明確に区別するために作成されます。クラスター属性は、サンプルが属するクラスターを示すために作成されます。クラスター数パラメーターが3に設定されたため、3つのクラスターのみが可能です。これが、各例が「cluster_0」、「cluster_1」または「cluster_2」に割り当てられている理由です。また、このデータのプロットビューにも注意してください。この演算子がどのように3つのグループを作成したかをプロットビューで明確に確認できます。クラスターモデルは、クラスターモデルの出力ポートからも配信されます。実行されたクラスタリングに関する情報が含まれています。フォルダービューでは、各クラスターのメンバーをフォルダー形式で表示できます。この演算子はクラスターにサンプルをランダムに割り当てることに注意することが重要です(これはプロットビューで簡単に確認できます)。 ExampleSetの適切なクラスタリングが必要な場合は、K-Means演算子のようなクラスタリングアルゴリズムを実装する演算子を使用してください。