Compare ROCs
概要
この演算子は、サブプロセスで学習者が作成したモデルのROCチャートを生成し、比較のために同じプロッターですべてのチャートをプロットします。
詳細
ROCの比較演算子はネストされた演算子です。つまり、サブプロセスがあります。サブプロセスの演算子はモデルを作成する必要があります。この演算子は、これらすべてのモデルのROC曲線を計算します。すべてのROC曲線は、同じプロッターで一緒にプロットされます。
この比較は、k分割交差検証の平均値に基づいています。相互検証の詳細については、相互検証演算子のドキュメントをご覧ください。あるいは、この演算子は、テストと内部の分割を使用して、指定されたデータセットからのトレーニングセットを使用できます。この場合、演算子は分割検証演算子のように動作します。指定されたExampleSetの以前の予測ラベルは、この演算子の適用中に削除されることに注意してください。
ROC曲線は、識別しきい値が変化したときのバイナリ分類システムの感度、つまり真陽性率対偽陽性率(1マイナス特異性または真陰性率)のグラフプロットです。 ROCは、陽性のうち真陽性の割合(TPR =真陽性率)と陰性のうち偽陽性の割合(FPR =偽陽性率)をプロットすることでも同等に表すことができます。
ROC曲線は、分類された例を信頼度順に並べることで計算されます。その後、すべての例が信頼度を下げて考慮され、x軸に偽陽性率、y軸に真陽性率がプロットされます。楽観的、中立的、悲観的では、ROC曲線を計算する3つの可能性があります。楽観的なROC計算の信頼度に複数の例がある場合、誤った分類を見る前に正しい分類例が考慮されます。悲観的な計算では、逆の方向になります。正しい分類を見る前に、間違った分類が考慮されます。ニュートラル計算は、上記の両方の計算方法を組み合わせたものです。ここでは、正しい分類と誤った分類が交互に考慮されます。信頼度が等しい例がない場合、または信頼度が等しいすべての例が同じクラスに割り当てられている場合、楽観的、中立、および悲観的なROC曲線は同じになります。
入力
- サンプルセット (IOObject)この入力ポートは、二項ラベル付きのExampleSetを想定しています。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。
出力
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- rocComparison(ROC比較)すべてのモデルのROC曲線は、このポートから提供されます。すべてのROC曲線は、同じプロッターで一緒にプロットされます。
パラメーター
- number_of_foldsこのパラメーターは、相互検証評価に使用するフォールドの数を指定します。このパラメーターが-1に設定されている場合、この演算子は分割比を使用し、分割検証演算子のように動作します。 範囲:整数
- split_ratioこのパラメーターは、トレーニングセットの相対サイズを指定します。 1から0の間である必要があります。1は、ExampleSet全体がトレーニングセットとして使用されることを意味します。 範囲:実数
- sampling_typeサンプリングのいくつかのタイプのサブセットを構築するために使用することができます。次のオプションが利用可能です。
- Linear sampling:線形サンプリングは、例の順序を変更せずに、単にExampleSetをパーティションに分割します。つまり、例が連続するサブセットが作成されます。
- Shuffled sampling:シャッフルサンプリングは、ExampleSetのランダムなサブセットを構築します。例は、サブセットを作成するためにランダムに選択されます。
- Stratified sampling:階層化サンプリングはランダムなサブセットを構築し、サブセット内のクラス分布がExampleSet全体と同じであることを保証します。たとえば、二項分類の場合、層化サンプリングではランダムなサブセットが作成されるため、各サブセットにはクラスラベルの2つの値のほぼ同じ割合が含まれます。
範囲:選択
- use_local_random_seedこのパラメーターは、サブセットの例をランダム化するためにローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じサブセットが生成されます。このパラメーターの値を変更すると、サンプルのランダム化方法が変更されるため、サブセットには異なるサンプルセットが含まれます。このパラメーターは、シャッフルサンプリングまたは成層サンプリングが選択されている場合にのみ使用できます。ランダムサンプリングを必要としないため、線形サンプリングには使用できません。例は順番に選択されます。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
- use_example_weightsこのパラメーターは、サンプルの重みを考慮するかどうかを示します。このパラメーターがtrueに設定されていない場合、各例に重み1が使用されます。 範囲:ブール
- roc_biasこのパラメーターは、ROCの評価方法を決定します。つまり、正しい予測が最初、最後、または交互にカウントされます。 ROC曲線は、分類された例を信頼度順に並べることで計算されます。その後、すべての例が信頼度を下げて考慮され、x軸に偽陽性率、y軸に真陽性率がプロットされます。楽観的、中立的、悲観的では、ROC曲線を計算する3つの可能性があります。信頼度が等しい例がない場合、または信頼度が等しいすべての例が同じクラスに割り当てられている場合、楽観的、中立、および悲観的なROC曲線は同じになります。
- optimistic:楽観的ROC計算の信頼度に複数の例がある場合、誤った分類を見る前に正しい分類例が考慮されます。
- pessimistic:悲観的計算では、正しい分類を見る前に間違った分類が考慮されます。
- neutral:ニュートラル計算は、楽観的な計算方法と悲観的な計算方法の両方を組み合わせたものです。ここでは、正しい分類と誤った分類が交互に考慮されます。
範囲:選択
チュートリアルプロセス
ROC曲線によるさまざまな分類器のグラフィカルな比較
このプロセスは、複数のROC曲線を使用して、いくつかの異なる分類器をグラフィカルに比較する方法を示しています。 「Ripley-Set」データセットは、Retrieve演算子を使用してロードされます。 ROCの比較演算子が適用されます。 ROCの比較演算子のサブプロセスをご覧ください。 3つの異なる学習者、つまりNaive Bayes、Rule Induction、Decision Treeが適用されていることがわかります。結果のモデルは、サブプロセスの出力に接続されます。 ROCの比較演算子は、これらすべてのモデルのROC曲線を計算します。すべてのROC曲線は、同じプロッターに一緒にプロットされ、結果ワークスペースに表示されます。