Performance Binominal Classification

概要

この演算子は、訓練されたモデルがラベル付きデータに適用された後、バイナリ分類の長所と短所を統計的に評価するために使用されます。

詳細

バイナリ分類は、結果に2つの可能な値がある予測を行います。それらを正と負と呼びます。さらに、各例の予測は正しいか間違っている可能性があり、4エントリの2×2混同マトリックスになります。

TP-「真のポジティブ」の数、正しく識別されたポジティブな例
FP-「誤検出」、否定の例誤って特定された例
FN-「偽陰性」、陽性の数誤って特定された例
TN-「真のネガ」の数、ネガ正しく特定された例

パラメータのセクションでは、多数のパフォーマンス基準が説明されていますが、いずれも上記の変数の観点から計算できます。

モデルに特定のしきい値を超えるスコアが正と識別される確率的スコアリングシステムがある場合、混同マトリックスの要素はしきい値に依存します。 ROCグラフを作成し、曲線下面積（AUC）を計算するには、しきい値を変化させ、各しきい値に対してポイント（x、y）をプロットします。

y軸-真の陽性率=（真の陽性予測）/（陽性例の数）= TP /（TP + FN）
x軸-偽陽性率=（偽陽性予測）/（陰性例の数）= FP /（FP + TN）

分化

多数のパフォーマンスオペレーターが存在するため、問題に最適なオペレーターを選択する必要があります。

Performance (Classification)

ラベルが名義であり、3つ以上の値がある場合、この演算子を選択します。

入力

ラベル付きデータ（IOObject）この入力ポートには、ラベル付きのExampleSetが必要です。 ExampleSetにラベル属性と予測属性の両方があり、ラベルのタイプが二項であることを確認してください。
パフォーマンス（パフォーマンスベクトル）この入力ポートには、パフォーマンスベクトルが必要です。多目的最適化を行う場合は、パフォーマンスベクトルを入力に接続する必要があります。

出力

パフォーマンス（パフォーマンスベクトル）この出力ポートは、パフォーマンスベクトル、つまり入力ExampleSetのラベルおよび予測属性に基づくパフォーマンス基準値のリストを提供します。出力では、入力（ある場合）からのパフォーマンス基準値が、このオペレーターからの値と結合されます。オーバーラップの場合、入力からの値は上書きされます。
サンプルセット（IOObject）入力として与えられたExampleSetは、変更なしでパススルーされます。

パラメーター

main_criterionパラメータの最適化や属性の選択など、パフォーマンスのベクトルを比較するときに主な基準が使用されます。選択しない場合、主な基準は出力パフォーマンスベクトルの最初の基準です。パフォーマンスベクトルが比較されない場合、主な基準は無視されます。範囲：
manual_set_positive_classポジティブクラスパラメーターを使用してポジティブクラスを手動で指定するには、このボックスをオンにします。それ以外の場合、ポジティブクラスはラベルの内部マッピングから派生します。希望するポジティブクラスを手動で設定することをお勧めします。範囲：
positive_classこのパラメーターを使用して、ポジティブクラスを手動で設定します。まれに、ドロップダウンメニューの推奨値が実際のラベルの値と一致しない場合があります。この場合、ドロップダウンメニューから選択する代わりに、その名前を手動で入力することにより、正しいポジティブクラスを指定できます。範囲：
accuracy精度=（正しい予測）/（例の数）=（TP + TN）/（TP + FP + FN + TN）範囲：
classification_error分類エラー=（予測の誤り）/（例の数）=（FP + FN）/（TP + FP + FN + TN）範囲：
kappaコーエンのkappa=（po-pe）/（1-pe）ここで：po =観測された精度=（TP + TN）/（TP + FP + FN + TN）
pe =予想精度= [（TP + FP）（TP + FN）+（FN + TN）（FP + TN）] / [（TP + FP + FN + TN）^ 2]

範囲：
AUC (optimistic)ROCグラフがプロットされるとき、曲線下面積（AUC）を計算する前に、予測はスコアによって最高から最低までソートされ、グラフは例ごとにプロットされます。 2つ以上の例のスコアが同じ場合、順序は明確に定義されていません。この場合、AUCの楽観的なバージョンは、負の例をプロットする前に正の例をプロットします。範囲：
AUC ROCグラフがプロットされるとき、曲線下面積（AUC）を計算する前に、予測はスコアによって最高から最低までソートされ、グラフは例ごとにプロットされます。 2つ以上のサンプルのスコアが同じ場合、順序は明確に定義されていません。 AUCの通常バージョンは、AUC（楽観的）とAUC（悲観的）の平均を取ることで面積を計算します。範囲：
AUC (pessimistic) ROCグラフがプロットされるとき、曲線下面積（AUC）を計算する前に、予測はスコアによって最高から最低までソートされ、グラフは例ごとにプロットされます。 2つ以上の例のスコアが同じ場合、順序は明確に定義されていません。この場合、AUCの悲観的なバージョンは、正の例をプロットする前に負の例をプロットします。範囲：
precision精度=（真の正の予測）/（すべての正の予測）= TP /（TP + FP）範囲：
recall想起=（真の陽性予測）/（陽性例の数）= TP /（TP + FN）範囲：
liftリフトは、2つの量の比率であり、ランダムサンプリングの改善を表します。1.すべての肯定的な予測のグループから肯定的な例を選択する確率：TP /（TP + FP）2.すべての例のグループから正の例を選択する確率：（TP + FN）/（TP + FP + FN + TN）
リフト= [TP /（TP + FP）] / [（TP + FN）/（TP + FP + FN + TN）]

範囲：
fallout fallout =（偽陽性の予測）/（陰性例の数）= FP /（FP + TN）範囲：
f_measureF1 = 2（精度*再呼び出し）/（精度+再呼び出し）= 2TP /（2TP + FP + FN）範囲：
false_positive誤検知の予測数：FP範囲：
false_negative偽陰性予測の数：FN範囲：
true_positive真のポジティブ予測の数：TP範囲：
true_negative真の否定的予測の数：TN範囲：
sensitivity感度=リコール=（真の陽性予測）/（陽性例の数）= TP /（TP + FN）範囲：
specificity特異性=（真の負の予測）/（負の例の数）= TN /（TN + FP）範囲：
youdenインフォームドネスまたはDeltaP ‘と呼ばれることもあります。J =感度+特異性-1範囲：
positive_predictive_valuePPV =精度=（真の正の予測）/（すべての正の予測）= TP /（TP + FP）範囲：
negative_predictive_valueNPV =（真の負の予測）/（すべての負の予測）= TN /（TN + FN）範囲：
psepマークネスまたはDeltaPと呼ばれることもあります。psep = PPV + NPV-1範囲：
skip_undefined_labelsこのパラメーターがtrueの場合、定義されたクラスに属さない例は無視されます。範囲：
comparator_classPerformanceComparator実装の完全修飾クラス名はここで指定されます。範囲：
use_example_weights重みの役割を持つ属性がない場合、このパラメーターは効果がありません。範囲：

チュートリアルプロセス

岩石から鉱山を分離

ソナーデータセットには、さまざまな角度および条件で金属シリンダー（「鉱山」）からソナー信号をバウンスすることで得られる111の例と、同様の条件で岩から得られる97の例が含まれています。送信されるソナー信号は、周波数が上昇する周波数変調チャープです。データセットには、さまざまなアスペクト角から得られた信号が含まれ、シリンダーは90度、岩は180度になります。

各例には、0.0〜1.0の範囲の60個の属性があります。各属性は、特定の期間に統合された特定の周波数帯域内のエネルギーを表します。これらの周波数はチャープ中に後で送信されるため、高周波数の積分アパーチャは時間的に遅く発生します。

最初のチュートリアルプロセスでは、ソナー信号に基づいて地雷を特定するための予測モデルが作成されます。プロセスを実行すると、出力は3つのステップで表示されます。

1. Sonarデータセット全体が表示されます。

2.ニューラルネットに基づく予測とともに、Sonarデータセットのサブセットが表示されます。

3. ROCグラフが赤で表示され、しきい値が青で表示されます。混同マトリックスを表示するには、「リコール」または「偽陰性」をクリックします。このモデルでは、4つの偽陰性（岩として識別された鉱山）で90％の鉱山が発見されることがわかります。

Operator Performance（Binominal Classification）の入力では、タイプが「binominal」のラベル付きデータが必要であるため、元のSonarデータのラベルは、まずOperator NominalからBinominalを介して「nominal」から「binominal」に変換する必要があります。最終的な演算子がパフォーマンス（分類）であり、名義ラベルを入力として受け入れる場合、この型変換ステップは不要です。

Cross Validationを使用して岩石から鉱山を分離

相互検証を使用することにより、鉱山発見に関するより現実的な視点が実現します。 2番目のチュートリアルプロセスは最初のチュートリアルプロセスに似ていますが、5つの異なるバージョンのニューラルネットワークモデルが作成され、結果が結合されます。演算子の相互検証は分割データの代わりに使用され、パフォーマンス（二項分類）はテストサブプロセスの一部です。

出力は再びROCグラフですが、今回はグラフの線に広がりがあり、モデル構築の不確実性を反映しています。「リコール」をクリックして混同マトリックスを見ると、結果のモデルが82％+/- 8％の地雷を発見していることがわかります。