Expectation Maximization Clustering
概要
この演算子は、期待値最大化アルゴリズムを使用してクラスタリングを実行します。クラスタリングは、互いに類似しており、他のクラスターに属するオブジェクトとは異なるオブジェクトをグループ化することに関係しています。ただし、期待値最大化アルゴリズムは、この基本的なアプローチをいくつかの重要な方法でクラスタリングに拡張します。
詳細
クラスタリングの一般的な目的は、例の中のクラスターを検出し、それらの例をクラスターに割り当てることです。このタイプの分析の典型的なアプリケーションは、多数の消費者行動関連変数が回答者の大規模なサンプルに対して測定されるマーケティング調査研究です。この調査の目的は、「市場セグメント」、つまり、他のクラスターに属する回答者と比較した場合に(同じクラスターの他のすべてのメンバーに対して)何らかの類似性が高い回答者のグループを検出することです。そのようなクラスターを識別することに加えて、クラスターがどのように異なるか、つまり異なるクラスター内のメンバーに関して特定の変数またはディメンションがどのように変化するかを決定することも通常は同じように重要です。
EM(期待値最大化)手法は、K-Means手法に似ています。 K-Meansクラスタリングアルゴリズムの基本的な操作は比較的簡単です。kクラスターの数が固定されている場合、それらのクラスターに観測値を割り当てて、クラスター全体の平均(すべての変数)が互いに異なるようにします。 EMアルゴリズムは、この基本的なアプローチを2つの重要な方法でクラスタリングに拡張します。
- 連続変数の平均の差を最大化するためにクラスターに例を割り当てる代わりに、EMクラスタリングアルゴリズムは、1つ以上の確率分布に基づいてクラスターメンバーシップの確率を計算します。クラスタリングアルゴリズムの目標は、(最終)クラスターを前提として、データの全体的な確率または尤度を最大化することです。
期待値最大化アルゴリズムこのクラスタリング手法の基本的なアプローチとロジックは次のとおりです。観測の大きなサンプルで単一の連続変数を測定するとします。さらに、サンプルが異なる平均(およびおそらく異なる標準偏差)の観測の2つのクラスターで構成されているとします。各サンプル内で、連続変数の値の分布は正規分布に従います。 EMクラスタリングの目的は、観測されたデータ(分布)の尤度を最大化するために、各クラスターの平均と標準偏差を推定することです。言い換えると、EMアルゴリズムは、異なるクラスター内の異なる分布の混合に基づいて、観測された値の分布を近似しようとします。 EMクラスタリングの結果は、k-meansクラスタリングによって計算された結果とは異なります。後者は、観測値をクラスターに割り当てて、クラスター間の距離を最大化します。 EMアルゴリズムは、クラスターへの観測値の実際の割り当てではなく、分類確率を計算します。言い換えると、各観測値は一定の確率で各クラスターに属します。もちろん、最終結果として、通常、(最大の)分類確率に基づいて、クラスターへの観測の実際の割り当てを確認できます。