Fast Large Margin

概要

この演算子は、大きなマージンの最適化のための高速な学習方法です。

詳細

Fast Large Margin演算子は、RE Fan、KW Chang、CJ Hsieh、XR Wang、およびCJ Linによって提案された線形サポートベクトル学習スキームに基づいて、高速マージン学習器を適用します。結果は、従来のSVMまたはロジスティック回帰の実装によって提供される結果と似ていますが、この線形分類器は、数百万の例と属性を持つデータセットで機能します。

SVMの基本的な説明を次に示します。標準SVMは入力データのセットを取得し、指定された各入力について、2つの可能なクラスのどちらが入力を構成するかを予測し、SVMを非確率的バイナリ線形分類器にします。 2つのカテゴリのいずれかに属するとマークされたトレーニングサンプルのセットが与えられると、SVMトレーニングアルゴリズムは、新しいサンプルを1つのカテゴリに割り当てるモデルを構築します。 SVMモデルは、空間内のポイントとしての例の表現であり、個別のカテゴリの例ができるだけ広い明確なギャップで分割されるようにマップされます。次に、新しい例が同じスペースにマッピングされ、ギャップのどちら側にあるかに基づいてカテゴリに属すると予測されます。

より正式には、サポートベクターマシンは、高次元または無限次元の空間で超平面または超平面のセットを構築し、分類、回帰、またはその他のタスクに使用できます。直感的には、一般にマージンが大きいほど分類器の一般化誤差が小さくなるため、クラスの最も近いトレーニングデータポイントまでの距離が最も大きい超平面（いわゆる機能マージン）によって適切な分離が実現されます。元の問題は有限次元空間で述べられるかもしれないが、判別する集合はその空間で線形に分離できないことがしばしば起こる。このため、元の有限次元空間をはるかに高い次元の空間にマッピングし、おそらくその空間での分離を容易にすることが提案されました。計算負荷を合理的に保つために、SVMスキームで使用されるマッピングは、選択されたカーネル関数K（x、y）に関して定義することにより、元の空間の変数に関してドット積を簡単に計算できるように設計されています問題に合わせて。高次元空間の超平面は、その空間のベクトルとの内積が一定である点の集合として定義されます。

入力

トレーニングセット（IOObject）この入力ポートには、ExampleSetが必要です。この演算子はノミナル属性を処理できません。数値属性を持つデータセットに適用できます。したがって、多くの場合、この演算子を適用する前に、Nominal to Numerical演算子を使用する必要があります。

出力

モデル（モデル）分類/回帰モデルは、この出力ポートから配信されます。これで、このモデルを非表示のデータセットに適用できます。
サンプルセット（IOObject）入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

solverこのパラメーターは、この高速マージン法のソルバータイプを指定します。次のオプションを使用できます：L2 SVM Dual、L2 SVM Primal、L2 Logistic Regression、およびL1 SVM Dual。範囲：選択
Cこのパラメーターは、コストパラメーターCを指定します。エラー項のペナルティーパラメーターです。範囲：実数
epsilonこのパラメーターは、終了基準の許容範囲を指定します。範囲：実数
class_weightsこれはエキスパートパラメータです。すべてのクラスの重み「w」を指定します。 [ リストの編集 ]ボタンをクリックすると、2列の新しいウィンドウが開きます。最初の列はクラス名を指定し、2番目の列はそのクラスの重みを指定します。パラメータCは、クラスの重みにCを掛けて計算されます。クラスの重みが指定されていない場合、そのクラスにはweight = 1が割り当てられます。範囲：リスト
use_biasこのパラメーターは、インターセプト値を計算する必要があるかどうかを示します。範囲：ブール

チュートリアルプロセス

Fast Large Marginオペレーターの概要

「ソナー」データセットは、検索演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。スプリット検証演算子は、このExampleSetに適用され、モデルのトレーニングとテストを支援します。この演算子のサブプロセスを見てください。 Fast Large Margin演算子は、モデルをトレーニングするためのトレーニングサブプロセスで適用されます。結果のモデルは、モデルの適用演算子を使用して、テストデータセットのテストサブプロセスに適用されます。オペレーターのパフォーマンスは、パフォーマンス（分類）オペレーターを使用して測定されます。最終モデルとそのパフォーマンスベクトルは出力に接続され、結果ワークスペースに表示されます。