RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Find Threshold

概要

この演算子は、ユーザー定義のコストに基づいて、ソフト分類データの鮮明な分類に最適なしきい値を見つけます。最適化手順はROC分析に基づいています。

詳細

この演算子は、明確な分類に変換するために、ソフト分類された予測の所定の予測信頼度のしきい値を見つけます。最適化手順はROC分析に基づいています。 ROCについては、この説明の最後で説明します。

しきい値の検索演算子は、ラベル付きExampleSetのしきい値を検索して、ソフト予測を鮮明な値にマッピングします。しきい値は、 しきい値ポートを介して配信されます。ほとんどの場合、しきい値の適用演算子は、しきい値の検索演算子によって配信された後、しきい値を適用するために使用されます。 2番目のクラスの信頼度が指定されたしきい値よりも大きい場合、予測はこのクラスに設定されます。そうでない場合は、他のクラスに設定されます。これは、添付のサンプルプロセスを調べることで簡単に理解できます。

さまざまな分類方法の中には、2つの主要な方法グループがあります。ソフト分類とハード分類です。特に、ソフト分類ルールは通常、クラスの条件付き確率を明示的に推定し、最大の推定確率に基づいてクラスの予測を行います。対照的に、ハード分類はクラス確率推定の要件をバイパスし、分類境界を直接推定します。

受信者動作特性(ROC)、または単にROC曲線は、識別しきい値が変化したときのバイナリ分類システムの真陽性率と偽陽性率のグラフプロットです。 ROCは、陽性のうち真陽性の割合(TP / P =真陽性率)と陰性のうち偽陽性の割合(FP / N =偽陽性率)をプロットすることでも同等に表すことができます。 TP / Pは、テスト中に利用可能なすべての陽性サンプルから陽性インスタンスを正しく分類する際の分類子または診断テストのパフォーマンスを決定します。一方、FP / Nは、テスト中に利用可能なすべてのネガティブサンプルの中で発生する不正確なポジティブ結果の数を定義します。

ROCスペースは、FP / NとTP / Pによってそれぞれx軸とy軸として定義されます。これは、真のポジティブ(メリット)と偽のポジティブ(コスト)の相対的なトレードオフを表します。各予測結果または混同行列の1つのインスタンスは、ROC空間の1つのポイントを表します。最良の予測方法は、100%TP / Pを表すROC空間の左上隅または座標(0,1)のポイントを生成します。および0%FP / N。 (0,1)ポイントは、完全分類とも呼ばれます。完全にランダムな推測では、左下から右上隅までの対角線に沿った点が得られます。

対角線はROC空間を分割します。対角線より上の点は良好な分類結果を表し、線より下の点は悪い結果を表します。しきい値の検索演算子は、悪い分類のポイントを反転して適切な分類に変換するしきい値を検索することに注意してください。

入力

  • サンプルセット (IOObject)この入力ポートには、ラベル付きのExampleSetが必要です。 ExampleSetには、ラベルと予測属性、および予測の信頼性の属性が必要です。

出力

  • サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
  • 敷居しきい値は、この出力ポートを介して配信されます。ソフトしきい値データにこのしきい値を適用するには、多くの場合、しきい値の適用演算子が使用されます。

パラメーター

  • define_labelsこれはエキスパートパラメータです。 trueに設定した場合、 最初のラベル2番目のラベルのパラメーターを使用して、 最初2番目のラベルを明示的に定義できます。 範囲:ブール
  • first_labelこのパラメーターは、 labelsパラメーターの定義がtrueに設定されている場合にのみ使用できます。最初のラベルを明示的に定義します。 範囲:文字列
  • second_labelこのパラメーターは、 labelsパラメーターの定義がtrueに設定されている場合にのみ使用できます。 2番目のラベルを明示的に定義します。 範囲:文字列
  • misclassification_costs_firstこのパラメーターは、最初のクラスの例が2番目のクラスの1つとして誤分類された場合に割り当てられるコストを指定します。 範囲:実数
  • misclassification_costs_secondこのパラメーターは、2番目のクラスの例が最初のクラスの1つとして誤分類された場合に割り当てられるコストを指定します。 範囲:実数
  • show_roc_plotこのパラメーターは、R​​OC曲線のプロットを表示するかどうかを示します。 範囲:ブール
  • use_example_weightsこのパラメーターは、サンプルの重みを使用する必要があるかどうかを示します。 範囲:ブール
  • roc_biasこれはエキスパートパラメータです。 ROC(およびAUC)の評価方法を決定します。 範囲:選択

チュートリアルプロセス

しきい値の検索演算子の概要

このプロセス例は、サブプロセス演算子で始まります。このサブプロセスは、ラベル付きのExampleSetを提供します。サブプロセス演算子をダブルクリックして、内部で何が起こっているかを確認しますが、「しきい値の検索」演算子の理解には直接関係ありません。サブプロセスでは、データの生成演算子は、二項ラベル付きのテストおよびトレーニングデータセットの生成に使用されます。 SVM分類モデルは学習され、それぞれデータセットのトレーニングとテストに適用されます。結果のラベル付きExampleSetは、このサブプロセスの出力です。このサブプロセスの後にブレークポイントが挿入されるため、しきい値の検索演算子を適用する前にラベル付きのExampleSetを確認できます。 ExampleSetには500個の例があることがわかります。肯定的な予測の信頼度に従って結果をソートし、データセットをスクロールすると、「confidence(positive)」が0.500を超えるすべての例が肯定として分類され、すべての例が「confidence(positive)」を使用して分類されることがわかります0.500未満はネガティブとして分類されます。

ここで、サブプロセスの外で何が起こっているかを見てみましょう。しきい値の検索には、しきい値の検索演算子が使用されます。すべてのパラメーターはデフォルト値で使用されます。しきい値の検索演算子は、しきい値ポートを介してしきい値を配信します。このしきい値は、しきい値の適用演算子を使用してラベル付きのExampleSetに適用されます。 ExampleSetにApply Threshold演算子が適用されると、2番目のクラスの信頼度が指定されたしきい値よりも大きい場合、予測はこのクラスに設定され、そうでない場合は他のクラスに設定されます。結果のExampleSetを見てください。 ‘confidence(positive)’に従ってExampleSetをソートし、ExampleSetをスクロールします。 「confidence(positive)」が0.306より大きいすべての例はポジティブとして分類され、「confidence(positive)」が0.306以下のすべての例はネガティブとして分類されることがわかります。元のExampleSetでは、境界値は0.500でしたが、[しきい値の検索]演算子は、ソフト分類データの鮮明な分類に適したしきい値を見つけました。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル