RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Create Threshold

概要

この演算子は、予測の信頼度(ソフト予測)に基づいて鮮明な分類のユーザー定義のしきい値を作成します。このしきい値は、しきい値の適用演算子を使用して適用できます。

詳細

しきい値パラメーターは、必要なしきい値を指定します。 最初のクラス2番目のクラスのパラメーターは、それぞれ1番目と2番目のクラスと見なされるExampleSetのクラスを指定するために使用されます。この演算子によって作成されたしきい値は、しきい値の適用演算子を使用してラベル付きのExampleSetに適用できます。 2番目のクラスの信頼度が指定されたしきい値よりも大きい場合、予測はこの2番目のクラスに設定されます。そうでない場合は、最初のクラスに設定されます。これは、添付のサンプルプロセスを調べることで簡単に理解できます。

しきい値の適用演算子は、指定されたしきい値をラベル付きのExampleSetに適用し、ソフト予測を鮮明な値にマップします。しきい値は、 しきい値ポートを介して提供されます。ほとんどの場合、しきい値の作成演算子は、しきい値の適用演算子を使用して適用される前にしきい値を作成するために使用されます。

さまざまな分類方法の中には、2つの主要な方法グループがあります。ソフト分類とハード分類です。特に、ソフト分類ルールは通常、クラスの条件付き確率を明示的に推定し、最大の推定確率に基づいてクラスの予測を行います。対照的に、ハード分類はクラス確率推定の要件をバイパスし、分類境界を直接推定します。

出力

  • 出力(しきい値モデル)このポートはしきい値を提供します。このしきい値は、しきい値の適用演算子を使用して、ラベル付きのExampleSetに適用できます。

パラメーター

  • thresholdこのパラメーターは、予測信頼度のしきい値を指定します。 0.0〜1.0の範囲である必要があります。 2番目のクラスの予測信頼度がこのしきい値より大きい場合、予測は2番目のクラス(つまり、 2番目のクラスパラメーターで指定されたクラス )に設定されます。そうでない場合は、最初のクラス(つまり、 最初のクラスパラメーターで指定されたクラス ) 。 範囲:実数
  • first_classこのパラメーターは、最初のクラスと見なされるクラスを指定します。 範囲:文字列
  • second_classこのパラメーターは、2番目のクラスと見なされるクラスを指定します。 範囲:文字列

チュートリアルプロセス

しきい値の作成と適用

このプロセス例は、サブプロセス演算子で始まります。このサブプロセスは、ラベル付きのExampleSetを提供します。サブプロセス演算子をダブルクリックして、サブプロセス内で何が起こっているかを確認しますが、しきい値の作成演算子の使用には直接関係ありません。サブプロセスでは、K-NN分類モデルが学習され、「重み付け」データセットのさまざまなサンプルに適用されます。結果のラベル付きExampleSetは、このサブプロセスの出力です。このサブプロセスの後にブレークポイントが挿入されるため、しきい値の作成演算子としきい値の適用演算子を適用する前に、ラベルが付いたExampleSetを確認できます。 ExampleSetには20の例があることがわかります。それらの11は「陽性」と予測され、残りの9つの例は「陰性」と予測されます。肯定的予測の信頼度に従って結果を並べ替えると、「肯定的」と予測された11の例のうち、3つの例が0.600の信頼性、4つの例が0.700の信頼性、3つの例の信頼性が0.800、1つの例の信頼性が0.900であることが簡単にわかります。

ここで、サブプロセスの外で何が起こっているのか見てみましょう。しきい値の作成には、しきい値の作成演算子が使用されます。しきい値パラメーターは0.700に設定され、第1クラスと第2クラスのパラメーターはそれぞれ「負」と「正」に設定されます。ここにブレークポイントが挿入され、結果ワークスペースでしきい値を確認できます。結果ワークスペースの次のステートメントは、すべてを説明しています。

信頼性(正)> 0.7の場合、正。他の否定的な

このステートメントは、confidence(positive)が0.7より大きい場合、クラスは正と予測されるべきであり、そうでない場合は負と予測されるべきであることを意味します。一般的な形式では、このステートメントは次のようになります。

Confidence(second)> Tの場合、second;最初に。

ここで、T、second、firstは、それぞれしきい値、2番目のクラス、1番目のクラスのパラメーターの値です。

このしきい値は、しきい値の適用演算子を使用してラベル付きのExampleSetに適用されます。 ExampleSetにApply Threshold演算子を適用すると、2つの可能性があることがわかります。2番目のクラスの信頼度が指定されたしきい値よりも大きい場合、予測は2番目に設定されます。このプロセスで、2番目のクラスの信頼度、つまり「ポジティブ」(しきい値の作成演算子の2番目のクラスパラメーターで指定されたクラス)が指定されたしきい値、つまり0.700(しきい値の作成演算子のしきい値パラメーターで指定されたしきい値)より大きい場合予測は「正」に設定され、そうでない場合は「負」に設定されます。ラベルの付いたExampleSetでは、4つの例のみが0.700より大きい信頼性(正)を持ちました。しきい値の適用演算子を適用すると、これらの4つの例のみに「正」の予測が割り当てられ、他のすべての例には「負」の予測が割り当てられます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル