RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Apply Threshold

概要

この演算子は、ソフト分類データにしきい値を適用します。

詳細

しきい値の適用演算子は、指定されたしきい値をラベル付きのExampleSetに適用し、ソフト予測を鮮明な値にマップします。しきい値は、 しきい値ポートを介して提供されます。ほとんどの場合、しきい値の作成演算子は、しきい値の適用演算子を使用して適用される前にしきい値を作成するために使用されます。 2番目のクラスの信頼度が指定されたしきい値よりも大きい場合、予測はこのクラスに設定されます。そうでない場合は、他のクラスに設定されます。これは、添付のサンプルプロセスを調べることで簡単に理解できます。

さまざまな分類方法の中には、2つの主要な方法グループがあります。ソフト分類とハード分類です。特に、ソフト分類ルールは通常、クラスの条件付き確率を明示的に推定し、最大の推定確率に基づいてクラスの予測を行います。対照的に、ハード分類はクラス確率推定の要件をバイパスし、分類境界を直接推定します。

入力

  • サンプルセット (IOObject)この入力ポートには、ラベル付きのExampleSetが必要です。 ExampleSetには、ラベルと予測属性、および予測の信頼性の属性が必要です。
  • 敷居しきい値は、この入力ポートを介して提供されます。多くの場合、このポートでしきい値を提供するには、しきい値の作成演算子を使用します。

出力

  • サンプルセット(IOObject)入力ExampleSetの予測は、しきい値ポートで指定されたしきい値に従って変更され、変更されたExampleSetはこのポートを介して配信されます。

チュートリアルプロセス

しきい値の作成と適用

このプロセス例は、サブプロセス演算子で始まります。このサブプロセスは、ラベル付きのExampleSetを提供します。サブプロセス演算子をダブルクリックして、サブプロセス内で何が起こっているかを確認しますが、しきい値の適用演算子の使用には直接関係ありません。サブプロセスでは、K-NN分類モデルが学習され、「重み付け」データセットのさまざまなサンプルに適用されます。結果のラベル付きExampleSetは、このサブプロセスの出力です。このサブプロセスの後にブレークポイントが挿入されるため、しきい値の適用演算子を適用する前にラベル付きのExampleSetを確認できます。 ExampleSetには20の例があることがわかります。それらの11は「陽性」と予測され、残りの9つの例は「陰性」と予測されます。肯定的予測の信頼度に従って結果を並べ替えると、「肯定的」と予測された11の例のうち、3つの例が0.600の信頼性、4つの例が0.700の信頼性、3つの例の信頼性が0.800、1つの例の信頼性が0.900であることが簡単にわかります。

ここで、サブプロセスの外で何が起こっているのか見てみましょう。しきい値の作成には、しきい値の作成演算子が使用されます。しきい値パラメーターは0.700に設定され、第1クラスと第2クラスのパラメーターはそれぞれ「負」と「正」に設定されます。このしきい値は、しきい値の適用演算子を使用してラベル付きのExampleSetに適用されます。 ExampleSetにApply Threshold演算子が適用されたときに、2番目のクラスの信頼度が指定されたしきい値よりも大きい場合、予測はこのクラスに設定され、そうでない場合は他のクラスに設定されます。このプロセスで、2番目のクラスの信頼度、つまり「ポジティブ」(しきい値の作成演算子の2番目のクラスパラメーターで指定されたクラス)が指定されたしきい値、つまり0.700(しきい値の作成演算子のしきい値パラメーターで指定されたしきい値)より大きい場合予測は「正」に設定され、そうでない場合は「負」に設定されます。ラベルの付いたExampleSetでは、4つの例のみが0.700より大きい信頼性(正)を持ちました。しきい値の適用演算子を適用すると、これらの4つの例のみに「正」の予測が割り当てられ、他のすべての例には「負」の予測が割り当てられます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル