RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Performance (Classification)

概要

この演算子は、分類タスクの統計的パフォーマンス評価に使用されます。この演算子は、分類タスクのパフォーマンス基準値のリストを提供します。

詳細

この演算子は、分類タスクのみのパフォーマンス評価に使用する必要があります。他の多くのパフォーマンス評価演算子もRapidMinerで使用できます。たとえば、パフォーマンス演算子、パフォーマンス(二項分類)演算子、パフォーマンス(回帰)演算子などです。パフォーマンス(分類)演算子は分類タスクでのみ使用されます。一方、パフォーマンスオペレーターは学習タスクタイプを自動的に決定し、そのタイプの最も一般的な基準を計算します。独自のパフォーマンス測定を作成する場合は、パフォーマンス(ユーザーベース)演算子を使用できます。

分類は、データインスタンスのグループメンバーシップを予測するために使用される手法です。たとえば、特定の日の列車が「予定どおり」、「遅い」、「非常に遅い」のいずれになるかを予測するために分類を使用できます。特定のイベントの人数が「平均未満」、「平均」、または「平均以上」になるかどうかを予測することも別の例です。分類モデルの統計的パフォーマンスを評価するには、データセットにラベルを付ける必要があります。つまり、 ラベルロールを持つ属性と予測ロールを持つ属性が必要です。 ラベル属性には実際の観測値が格納され、 予測属性には議論中の分類モデルによって予測されたラベルの値が格納されます。

入力

  • ラベル付きデータこの入力ポートには、ラベル付きのExampleSetが必要です。モデルの適用演算子は、ラベル付きデータを提供するこのような演算子の良い例です。 ExampleSetにラベル属性と予測属性があることを確認してください。属性のラベルおよび予測ロールの詳細については、ロールの設定演算子を参照してください。
  • パフォーマンスこれはオプションのパラメーターです。パフォーマンスベクターが必要です。

出力

  • パフォーマンスこのポートはパフォーマンスベクターを提供します(ここでは、output-performance-vectorと呼びます)。パフォーマンスベクトルは、パフォーマンス基準値のリストです。パフォーマンスベクトルは、入力ExampleSetのラベル属性と予測属性に基づいて計算されます。 output-performance-vectorには、このPerformanceオペレーターによって計算されたパフォーマンス基準が含まれています(ここでは、calculated-performance-vectorと呼びます)。パフォーマンスベクトルもパフォーマンス入力ポートに入力された場合(ここではinput-performance-vectorと呼びます)、input-performance-vectorの基準もoutput-performance-vectorに追加されます。 input-performance-vectorとCalculated-performance-Vectorの両方に同じ基準があり、値が異なる場合、calculated-performance-vectorの値は出力ポートを介して配信されます。この概念は、添付のサンプルプロセスを調べることで簡単に理解できます。
  • サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • main_criterion主基準は比較に使用され、属性選択や他のメタ最適化プロセス設定など、パフォーマンスベクトルが比較されるプロセスに対してのみ指定する必要があります。 主基準が選択されていない場合、結果のパフォーマンスベクトルの最初の基準が主基準と見なされます。 範囲:
  • accuracy正しく分類された例の相対的な数、つまり正しい予測の割合範囲:ブール
  • classification_error誤分類された例の相対的な数、または間違った予測の割合。 範囲:ブール
  • kappa分類のカッパ統計。一般に、偶然に発生する正しい予測を考慮に入れるため、単純なパーセンテージの正しい予測計算よりも堅牢な尺度であると考えられています。 範囲:ブール
  • weighted_mean_recallクラスごとのすべてのリコール測定の加重平均。個々のクラスのクラスリコールを通じて計算されます。クラスのリコールは、結果ワークスペースに表示されるマトリックスの最後の行に記載されています。 範囲:ブール
  • weighted_mean_precisionクラスごとのすべての精度測定の加重平均。個々のクラスのクラス精度を介して計算されます。クラスの精度は、結果ワークスペースに表示されるマトリックスの最後の列に記載されています。 範囲:ブール
  • spearman_rho Spearmanのrhoを使用した、実際のラベルと予測ラベルの間のランク相関。スピアマンのローは、2つの変数間の線形関係の尺度です。この場合の2つの変数は、 ラベル属性と予測属性です。 範囲:ブール
  • kendall_tauケンドールのタウを使用した実際のラベルと予測されたラベル間のランク相関。ケンドールのタウは相関の尺度であるため、2つの変数間の関係の強さを測定します。この場合の2つの変数は、 ラベル属性と予測属性です。 範囲:ブール
  • absolute_error実際の値からの予測の平均絶対偏差。ラベル属性の値は実際の値です。 範囲:ブール
  • relative_error平均相対誤差は、実際の値で割った予測の絶対偏差の平均です。 ラベル属性の値は実際の値です。 範囲:ブール
  • relative_error_lenient平均許容相対誤差は、実際の値からの予測の絶対偏差の平均を実際の値と予測の最大値で割ったものです。 ラベル属性の値は実際の値です。 範囲:ブール
  • relative_error_strict平均厳密相対誤差は、実際の値からの予測の絶対偏差の平均を、実際の値と予測の最小値で割ったものです。 ラベル属性の値は実際の値です。 範囲:ブール
  • normalized_absolute_error平均が予測された場合に発生した誤差で割った絶対誤差。 範囲:ブール
  • root_mean_squared_error平均二乗平均誤差。 範囲:ブール
  • root_relative_squared_error平均化されたルート相対二乗誤差。 範囲:ブール
  • squared_error平均二乗誤差。 範囲:ブール
  • correlation ラベル予測属性の間の相関係数を返します。 範囲:ブール
  • squared_correlation ラベル予測属性の間の二乗相関係数を返します。 範囲:ブール
  • cross_entropy分類のクロスエントロピー。例の数で割った真のラベルの信頼度の対数の合計として定義されます。 範囲:ブール
  • margin分類器のマージン。正しいラベルの最小信頼度として定義されます。 範囲:ブール
  • soft_margin_lossすべての1-正しいラベルの信頼度の平均として定義される、分類の平均ソフトマージン損失。 範囲:ブール値
  • logistic_loss分類子のロジスティック損失。ln(1 + exp(-[conf(CC)]))の平均として定義されます。’conf(CC) ‘は正しいクラスの信頼度です。 範囲:ブール
  • skip_undefined_labels trueに設定されている場合、未定義のラベルを持つ例はスキップされます。 範囲:ブール
  • comparator_classこれはエキスパートパラメータです。 PerformanceComparator実装の完全修飾クラス名はここで指定されます。 範囲:文字列
  • use_example_weightsこのパラメーターを使用すると、可能であれば統計的なパフォーマンスの計算にサンプルの重み sを使用できます。 ウェイトの役割を持つ属性がない場合、このパラメーターは効果がありません。例の重みを考慮するために、ExampleSetには重みの役割を持つ属性が必要です。 重みの生成など、 重みを割り当てるいくつかの演算子を使用できます。 重みの役割に関する詳細については、役割の設定演算子を調べてください。 範囲:ブール
  • class_weightsこれはエキスパートパラメータです。すべてのクラスの重み「w」を指定します。 [ リスト編集 ]ボタンをクリックすると、2列の新しいウィンドウが開きます。最初の列はクラス名を指定し、2番目の列はそのクラスの重みを指定します。クラスの重みが指定されていない場合、そのクラスには重み= 1が割り当てられます。 範囲:

チュートリアルプロセス

パフォーマンスでのパフォーマンスポートの使用(分類)

このサンプルプロセスは、2つのサブプロセス演算子と1つのパフォーマンス(分類)演算子で構成されています。最初のサブプロセス演算子をダブルクリックすると、このサブプロセス内の演算子が表示されます。最初のサブプロセス「サブプロセス(ラベル付きデータプロバイダー)」は、Retrieve演算子を使用して「Golf」データセットをロードし、k-NN演算子を使用して分類モデルを学習します。次に、モデルの適用演算子を使用して、学習したモデルが「ゴルフテストセット」データセットに適用されます。次に、重みの生成演算子を使用して、重みの役割を持つ属性を追加します。したがって、このサブプロセスは、重み属性を持つラベル付きExampleSetを提供します。このサブプロセスの後にブレークポイントが挿入され、このExampleSetが表示されます。このExampleSetは、メインプロセスのパフォーマンス(分類)演算子のラベル付きデータ入力ポートで提供されます。

2番目のサブプロセス演算子 ‘Subprocess(パフォーマンスベクトルプロバイダー)’は、Retrieve演算子を使用して ‘Golf’データセットを読み込み、k-NN演算子を使用して分類モデルを学習します。次に、モデルの適用演算子を使用して、学習したモデルが「ゴルフ」データセットに適用されます。次に、ラベル付けされたデータにパフォーマンス(分類)演算子が適用され、パフォーマンスベクトルが生成されます。このサブプロセスの後にブレークポイントが挿入され、このパフォーマンスベクトルが表示されます。このモデルは同じデータセット(ゴルフデータセット)でトレーニングおよびテストされているため、精度は100%であることに注意してください。したがって、このサブプロセスは、100%の精度と0.00%の分類エラーを備えたパフォーマンスベクトルを提供します。このパフォーマンスベクターは、メインプロセスのパフォーマンス(分類)オペレーターのパフォーマンス入力ポートに接続されます。

プロセスを実行すると、最初のサブプロセス演算子の出力であるExampleSetが最初に表示されます。 [実行]ボタンをもう一度押すと、パフォーマンスベクトルが表示されます。これは、2番目のサブプロセス演算子の出力です。 [実行]ボタンをもう一度押すと、結果ワークスペースの条件選択ウィンドウにさまざまな条件が表示されます。これらには、分類エラー、精度、加重平均想起、加重平均精度が含まれます。基準選択ウィンドウから精度を選択すると、その値は71.43%です。それどころか、2番目のサブプロセスによって提供される入力パフォーマンスベクトルの精度は100%でした。 input-performance-vectorとCalculated-Performance-Vectorの両方に同じ基準があり、値が異なる場合、Calculated-Performance-Vectorの値は出力ポート。ここで、パフォーマンス入力ポートで提供されるパフォーマンスベクトルのために、分類エラー基準が基準リストに追加されることに注意してください。 2番目のサブプロセス演算子を無効にして同じプロセスを再度実行すると、分類エラー条件が現在表示されていないことがわかります。これは、パフォーマンスベクターがパフォーマンス入力ポートで供給される場合、その基準もoutput-performance-vectorに追加されるためです。

精度は、例の総数に対する正しい予測の割合をとることによって計算されます。正しい予測とは、予測属性の値がラベル属性の値と等しい例です。結果ワークスペースのExampleSetを見ると、このデータセットには14の例があることがわかります。 14の例のうち10が正しい予測です。つまり、ラベルと予測属性の値は同じです。これが、精度が71.43%(10 x 100/14 = 71.43%)だった理由です。同じプロセスを再度実行しますが、今回はサンプルのweightsパラメーターをtrueに設定します。結果をもう一度確認してください。今回は各例の重みが考慮されたため、現在変更されています。今回の精度は68.89%です。正しい予測の重量の割合と総重量を取得すると、同じ答えが得られます(0.6889 x 100/1 = 68.89%)。このプロセス例では、重みを使用すると精度が低下しますが、常にそうであるとは限りません。

加重平均リコールは、すべてのクラスのリコールの平均を取ることによって計算されます。結果ワークスペースの結果マトリックスの最後の行でわかるように、「true no」のクラスリコールは60%、「true yes」のクラスリコールは77.78%です。したがって、加重平均リコールは、これらのクラスリコール値の平均を取ることで計算されます(((77.78%)+(60%))/ 2 = 68.89%)。

加重平均精度は、すべてのクラスの精度の平均を取ることによって計算されます。結果ワークスペースの結果のマトリックスの最後の列でわかるように、 ‘predのクラス精度。 noは60%で、predのクラス精度です。はい」は77.78%です。したがって、加重平均精度は、これらのクラス精度値の平均を取ることで計算されます(((77.78%)+(60%))/ 2 = 68.89%)。これらの値は、使用例のweightsパラメーターがfalseに設定されている場合に使用されます。

注:このプロセス例は、パフォーマンス(分類)オペレーターのさまざまな観点を強調するためのものです。実際のシナリオではあまり役に立ちません。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル