Naive Bayes
概要
この演算子は、単純ベイズ分類モデルを生成します。
詳細
Naive Bayesは高バイアス、低分散の分類器であり、小さなデータセットでも良好なモデルを構築できます。使い方は簡単で、計算的に安価です。典型的なユースケースには、スパム検出、感情分析、推奨システムなどのテキスト分類が含まれます。
Naive Bayesの基本的な前提は、ラベル(クラス)の値が与えられると、属性の値は他の属性の値から独立しているということです。厳密に言えば、この仮定はめったに真実ではありません(「単純」です!)が、経験上、単純ベイズ分類器がよく機能することがわかります。独立性の仮定により、単純ベイズ確率モデルの構築に必要な計算が大幅に簡素化されます。
確率モデルを完成させるには、クラスを指定して、個々の属性の条件付き確率分布について何らかの仮定を行う必要があります。この演算子は、ガウス確率密度を使用して属性データをモデル化します。
分化
Naive Bayes (Kernel)
代替演算子Naive Bayes(カーネル)は、カーネル密度を作成するために複数のガウス分布を組み合わせたNaive Bayesのバリアントです。
入力
- トレーニングセット (IOObject)入力ポートにはExampleSetが必要です。
出力
- モデル(モデル)Naive Bayes分類モデルは、この出力ポートから配信されます。モデルをラベルなしデータに適用して、予測を生成できるようになりました。
- サンプルセット(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。
パラメーター
- laplace_correctionNaive Bayesの単純さには弱点があります。トレーニングデータ内で特定の属性値が特定のクラスのコンテキストで発生しない場合、条件付き確率はゼロに設定されます。このゼロ値が他の確率と乗算されると、それらの値もゼロに設定され、結果は誤解を招きます。ラプラス補正は、この問題を回避するための簡単なトリックであり、各カウントに1を追加してゼロ値の発生を回避します。ほとんどのトレーニングセットでは、各カウントに1を追加しても、推定される確率にはほとんど影響しません。
範囲:
チュートリアルプロセス
Iiveデータセットへの単純ベイズの適用
アイリスデータセットには、アイリス植物の3つの異なるクラスに対応する150の例が含まれています:アイリスセトサ、アイリスベルシカラー、およびアイリスバージニカ。アイリスの各クラスには50の例があり、各例には6つの属性(ラベル、ID、および植物の物理的特性に対応する4つの実際の属性)が含まれています。
a1 =がく片の長さ(cm)a2 =がく片の幅(cm)a3 =花弁の長さ(cm)a4 =花弁の幅(cm)
チュートリアルプロセスでは、植物の物理的特性に基づいて、アイリスクラスの予測モデルが作成されます。プロセスを実行すると、出力は3つのステップで表示されます。
1.アイリスデータセット全体が表示されます。
2.アイリスデータセットのサブセットが、単純ベイズに基づく予測とともに表示されます。
3.混同マトリックスが表示され、予測がデータセットと非常に一貫していることが示されます(精度:98.33%)。
演算子分割データは、元のデータセットを2つの部分に分割します。1つはNaive Bayesのトレーニングに使用され、もう1つはモデルの評価に使用されます。結果は、この単純なモデルがアイリスデータセットに適切に適合できることを示しています。