Logistic Regression (Evolutionary)
概要
この演算子は、バイナリ分類タスク用のカーネルロジスティック回帰学習器です。
詳細
ロジスティック回帰は、1つ以上の予測変数に基づいて、カテゴリー(限られた数のカテゴリーをとることができる変数)基準変数の結果を予測するために使用される回帰分析の一種です。ロジスティック関数を使用して、1つの試行の結果を説明する確率が、説明変数の関数としてモデル化されます。ロジスティック回帰は、従属変数を確率スコアに変換することにより、カテゴリー従属変数と通常は連続した独立変数(または複数)との関係を測定します
この演算子は、ドット、放射状、多項式、シグモイド、ANOVA、epachnenikov、ガウスの組み合わせとmultiquadricを含む様々なカーネルの種類をサポートしています。これらのカーネルタイプの説明は、パラメーターセクションに記載されています。
入力
- トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。この演算子はノミナル属性を処理できません。数値属性を持つデータセットに適用できます。したがって、多くの場合、この演算子を適用する前に、Nominal to Numerical演算子を使用する必要があります。
出力
- モデル(モデル)ロジスティック回帰モデルは、この出力ポートから配信されます。これで、このモデルを非表示のデータセットに適用できます。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- kernel_typeカーネル関数のタイプは、このパラメーターを介して選択されます。次のカーネルタイプがサポートされています: ドット、ラジアル、多項式、シグモイド、アノーバ、エパネニコフ、ガウスの組み合わせ、マルチクアドリック
- dot:ドットカーネルは、k(x、y)= x * yで定義されます。つまり、xとyの内積です。
- radial:ラジアルカーネルはexp(-g || xy || ^ 2)で定義されます。gはガンマで、カーネルガンマパラメーターで指定されます。調整可能なパラメーターガンマは、カーネルのパフォーマンスに大きな役割を果たしており、目前の問題に注意深く調整する必要があります。
- polynomial:多項式カーネルは、k(x、y)=(x * y + 1)^ dで定義されます。dは多項式の次数であり、カーネル次数パラメーターで指定されます。多項式カーネルは、すべてのトレーニングデータが正規化される問題に適しています。
- sigmod:シグモイドカーネルは、2層のニューラルネットtanh(ax * y + b)によって定義されます。ここで、aはアルファで、bは切片定数です。これらのパラメーターは、カーネルaおよびカーネルbパラメーターを使用して調整できます。アルファの一般的な値は1 / Nです。Nはデータ次元です。 aとbのすべての選択が有効なカーネル関数につながるわけではないことに注意してください。
- anova:anovaカーネルは、exp(-g(xy))の総和の累乗dで定義されます。ここで、gはガンマ、dは度です。ガンマと度は、それぞれカーネルガンマとカーネル度パラメーターによって調整されます。
- epachnenikov:epachnenikovカーネルは、-1〜1のuに対してこの関数(3/4)(1-u2)であり、その範囲外のuに対してゼロです。カーネルsigma1とカーネル次数の2つの調整可能なパラメーターがあります。
- gaussian_combination:これはガウスの組み合わせカーネルです。調整可能なパラメーターkernel sigma1、kernel sigma2、およびkernel sigma3があります。
- multiquadric:multiquadricカーネルは、|| xy || ^ 2 + c ^ 2の平方根で定義されます。調整可能なパラメーターkernel sigma1とkernel sigma shiftがあります。
範囲:選択
- kernel_gammaこれはカーネルパラメータガンマです。これは、 カーネルタイプパラメーターが放射状またはanovaに設定されている場合にのみ使用可能です。 範囲:実数
- kernel_sigma1これはカーネルパラメーターsigma1です。これは、 カーネルタイプパラメーターがepachnenikov 、 ガウスの組み合わせまたはmultiquadricに設定されている場合にのみ使用可能です。 範囲:実数
- kernel_sigma2これはカーネルパラメーターsigma2です。これは、 カーネルタイプパラメータがガウスの組み合わせに設定されている場合にのみ使用できます。 範囲:実数
- kernel_sigma3これはカーネルパラメーターsigma3です。これは、 カーネルタイプパラメータがガウスの組み合わせに設定されている場合にのみ使用できます。 範囲:実数
- kernel_shiftこれはカーネルパラメーターシフトです。これは、 カーネルタイプパラメーターがmultiquadricに設定されている場合にのみ使用できます。 範囲:実数
- kernel_degreeこれは、カーネルパラメータの次数です。これは、 カーネルタイプパラメーターがPolynomial 、 anovaまたはepachnenikovに設定されている場合にのみ使用可能です。 範囲:実数
- kernel_aこれはカーネルパラメータaです。これは、 カーネルタイプパラメーターがsigmoid Range:realに設定されている場合にのみ使用可能です。
- kernel_bこれはカーネルパラメーターbです。これは、 カーネルタイプパラメーターがsigmoid Range:realに設定されている場合にのみ使用可能です。
- Cこれは誤分類の許容範囲を設定する複雑さの定数で、Cの値を大きくすると「ソフトな」境界が可能になり、値を低くすると「ハードな」境界が作成されます。大きすぎる複雑度定数は、過剰適合につながる可能性がありますが、小さすぎる値は、過度に一般化される可能性があります。 範囲:実数
- start_population_typeこのパラメーターは、開始ポピュレーション初期化のタイプを指定します。 範囲:選択
- max_generationsこのパラメーターは、アルゴリズムを終了するまでの世代数を指定します。 範囲:整数
- generations_without_improvalこのパラメーターは、早期停止の停止基準を指定します。つまり、パフォーマンスを改善せずにn世代後に停止します。 nはこのパラメーターで指定されます。 範囲:整数
- population_size サイズこのパラメータは、母集団のサイズ、つまり世代ごとの個体数を指定します。 -1に設定すると、すべての例が選択されます。 範囲:整数
- tournament_fractionこのパラメーターは、トーナメントメンバーとして使用される現在の人口の割合を指定します。 範囲:実数
- keep_bestこのパラメーターは、最高の個人が生き残るかどうかを指定します。これはエリート選択とも呼ばれます。次の世代に変わらない世代の最高の個人を保持することは、エリート主義またはエリート選択と呼ばれます。 範囲:ブール
- mutation_typeこのパラメーターは、突然変異演算子のタイプを指定します。 範囲:選択
- selection_typeこのパラメーターは、この進化的アルゴリズムの選択スキームを指定します。 範囲:選択
- crossover_prob個人がクロスオーバーのために選択される確率は、このパラメーターによって指定されます。 範囲:実数
- use_local_random_seedこのパラメーターは、ランダム化にローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じランダム化が生成されます。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
- show_convergence_plotこのパラメーターは、収束プロットのあるダイアログを描画するかどうかを示します。 範囲:ブール
チュートリアルプロセス
Logistic Regression(Evolutionary)演算子の概要
「ソナー」データセットは、検索演算子を使用してロードされます。 Split Validationオペレーターは、回帰モデルのトレーニングとテストのために適用されます。 Logistic Regression(Evolutionary)オペレーターは、Split Validationオペレーターのトレーニングサブプロセスで適用されます。すべてのパラメーターはデフォルト値で使用されます。 Logistic Regression(Evolutionary)演算子は、回帰モデルを生成します。モデルの適用演算子は、テストサブプロセスで使用され、このモデルをテストデータセットに適用します。結果のラベルが付いたExampleSetは、モデルのパフォーマンスを測定するためにパフォーマンスオペレーターによって使用されます。回帰モデルとそのパフォーマンスベクトルは出力に接続され、結果ワークスペースで確認できます。