RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Naive Bayes (Kernel)

 

概要

この演算子は、推定カーネル密度を使用してカーネルナイーブベイズ分類モデルを生成します。

詳細

単純ベイズ分類器は、ベイズの定理(ベイズ統計から)を強力な(単純な)独立仮定で適用することに基づく単純な確率的分類器です。基礎となる確率モデルのより記述的な用語は、「独立した特徴モデル」です。簡単に言えば、Naive Bayes分類子は、クラスの特定の機能(属性)の存在(または不在)が他の機能の存在(または不在)とは無関係であると想定します。たとえば、果実が赤く、丸く、直径が約4インチの場合、果実はリンゴと見なされます。これらの機能が互いに依存している場合、または他の機能の存在に依存している場合でも、Naive Bayes分類器は、これらすべてのプロパティがこの果物がリンゴである確率に独立して寄与すると見なします。基礎となる仮定が正しくない場合でも、Naive Bayes分類器のパフォーマンスはかなり良好です。

Naive Bayes分類器の利点は、分類に必要な変数の平均と分散を推定するために必要なトレーニングデータが少ないことです。独立変数が想定されているため、共分散行列全体ではなく、各ラベルの変数の分散のみを決定する必要があります。 Naive Bayes演算子とは対照的に、Naive Bayes(カーネル)演算子は数値属性に適用できます。

カーネルは、ノンパラメトリック推定手法で使用される重み関数です。カーネルは、ランダム変数の密度関数を推定するためのカーネル密度推定、またはランダム変数の条件付き期待値を推定するためのカーネル回帰で使用されます。

カーネル密度推定量は、ノンパラメトリック密度推定量と呼ばれる推定量のクラスに属します。推定器が固定の関数形式(構造)を持ち、この関数のパラメーターのみが保存する必要がある情報であるパラメトリック推定器と比較して、ノンパラメトリック推定器は固定構造を持たず、推定に到達するためにすべてのデータポイントに依存します。

入力

  • トレーニングセット (IOObject)入力ポートにはExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。

出力

  • モデルKernel Naive Bayes分類モデルは、この出力ポートから提供されます。この分類モデルは、ラベル属性の予測のために、見えないデータセットに適用できるようになりました。
  • サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • laplace_correctionこのパラメーターは、ゼロ確率の大きな影響を防ぐためにラプラス補正を使用する必要があるかどうかを示します。ゼロ確率を回避する簡単なトリックがあります。トレーニングセットが非常に大きいため、各カウントに1を追加すると、推定確率にわずかな差が生じるだけで、確率値がゼロになるケースを回避できると想定できます。この手法は、ラプラス補正として知られています。 範囲:ブール
  • evaluation_modeこのパラメーターは、カーネル密度推定モードを指定します。 2つのオプションが利用可能です。
    • full:このオプションが選択されている場合、ヒューリスティックにより帯域幅を選択するか、固定帯域幅を指定できます。
    • greedy:このオプションを選択した場合、最小帯域幅とカーネルの数を指定する必要があります。

    範囲:選択

  • bandwidth_selectionこのパラメーターは、 推定モードパラメーターが「full」に設定されている場合にのみ使用できます。このパラメーターは、カーネル帯域幅を設定する方法を指定します。帯域幅はヒューリスティックによって選択するか、修正帯域幅を指定できます。カーネルの帯域幅は、結果の推定値に強い影響を与える無料のパラメーターであることに注意してください。小さすぎるまたは大きすぎる値は役に立たないため、最適な帯域幅を選択することが重要です。 範囲:選択
  • bandwidthこのパラメーターは、 推定モードパラメーターが「full」に設定され、 帯域幅選択パラメーターが「fix」に設定されている場合にのみ使用できます。このパラメーターは、カーネル帯域幅を指定します。 範囲:実数
  • minimum_bandwidthこのパラメーターは、 推定モードパラメーターが ‘greedy’に設定されている場合にのみ使用できます。このパラメーターは、最小カーネル帯域幅を指定します。 範囲:実数
  • number_of_kernelsこのパラメーターは、 推定モードパラメーターが ‘greedy’に設定されている場合にのみ使用できます。このパラメーターは、カーネルの数を指定します。 範囲:整数
  • use_application_gridこのパラメーターは、カーネル密度関数グリッドをモデルアプリケーションで使用する必要があるかどうかを示します。密度関数の精度を犠牲にして、モデルの適用を高速化します。 範囲:ブール
  • application_grid_sizeこのパラメーターは、 use application gridパラメーターがtrueに設定されている場合にのみ使用できます。このパラメーターは、アプリケーショングリッドのサイズを指定します。 範囲:整数

チュートリアルプロセス

Naive Bayes(Kernel)オペレーターの紹介

「ゴルフ」データセットは、検索演算子を使用してロードされます。 Naive Bayes(カーネル)演算子が適用されます。 Naive Bayes(Kernel)演算子のすべてのパラメーターは、デフォルト値で使用されます。 Naive Bayes(カーネル)演算子によって生成されたモデルは、Apply Model演算子を使用して「Golf-Testset」データセットに適用されます。プロセスの結果は、結果ワークスペースで確認できます。パフォーマンスを向上させるには、この演算子のパラメータを慎重に選択する必要があることに注意してください。特に帯域幅は慎重に選択する必要があります。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル