Performance (Regression)
概要
この演算子は、回帰タスクの統計的なパフォーマンス評価に使用され、回帰タスクのパフォーマンス基準値のリストを提供します。
詳細
この演算子は、回帰タスクのパフォーマンス評価にのみ使用してください。パフォーマンスオペレーター、パフォーマンス(二項分類)オペレーター、パフォーマンス(分類)オペレーターなど、他の多くのパフォーマンス評価オペレーターもRapidMinerで使用できます。パフォーマンス(回帰)オペレーターは回帰タスクでのみ使用されます。一方、パフォーマンスオペレーターは学習タスクタイプを自動的に決定し、そのタイプの最も一般的な基準を計算します。独自のパフォーマンス測定を作成する場合は、パフォーマンス(ユーザーベース)演算子を使用できます。
回帰は、数値予測に使用される手法であり、1つの従属変数(ラベル属性)と、独立変数(正規属性)として知られる一連の他の変化変数との関係の強さを判断しようとする統計的手段です。分類がカテゴリラベルの予測に使用されるように、回帰は連続値の予測に使用されます。たとえば、5年の実務経験を持つ大卒者の給与や、価格を考えた場合の新製品の潜在的な販売を予測できます。回帰は、商品の価格、金利、特定の産業またはセクターなどの特定の要因が資産の価格変動にどの程度影響するかを決定するためによく使用されます。回帰モデルの統計的パフォーマンスを評価するには、データセットにラベルを付ける必要があります。つまり、 ラベルロールを持つ属性と予測ロールを持つ属性が必要です。 ラベル属性には実際の観測値が格納され、 予測属性には議論中の回帰モデルによって予測されたラベルの値が格納されます。
入力
- ラベル付きデータこの入力ポートには、ラベル付きのExampleSetが必要です。モデルの適用演算子は、ラベル付きデータを提供するこのような演算子の良い例です。 ExampleSetにラベルと予測属性があることを確認してください。属性のラベルおよび予測ロールの詳細については、ロールの設定演算子を参照してください。
- パフォーマンスこれはオプションのパラメーターです。パフォーマンスベクターが必要です。
出力
- パフォーマンスこのポートはパフォーマンスベクターを提供します(ここでは、output-performance-vectorと呼びます)。パフォーマンスベクトルは、パフォーマンス基準値のリストです。パフォーマンスベクトルは、入力ExampleSetのラベルと予測属性に基づいて計算されます。 output-performance-vectorには、このPerformanceオペレーターによって計算されたパフォーマンス基準が含まれています(ここでは、calculated-performance-vectorと呼びます)。パフォーマンスベクトルもパフォーマンス入力ポートで入力された場合(ここではinput-performance-vectorと呼びます)、input-performance-vectorの基準もoutput-performance-vectorに追加されます。 input-performance-vectorとCalculated-Performance-Vectorの両方に同じ条件があり、値が異なる場合、calculated-performance-vectorの値は出力ポートを介して配信されます。この概念は、パフォーマンス(分類)演算子のプロセスの例を調べることで簡単に理解できます。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- main_criterion主基準は比較に使用され、属性選択や他のメタ最適化プロセス設定など、パフォーマンスベクトルが比較されるプロセスに対してのみ指定する必要があります。 主基準が選択されていない場合、結果のパフォーマンスベクトルの最初の基準が主基準と見なされます。 範囲:
- root_mean_squared_error平均二乗平均誤差。 範囲:ブール
- absolute_error実際の値からの予測の平均絶対偏差。 ラベル属性の値は実際の値です。 範囲:ブール
- relative_error平均相対誤差は、実際の値からの予測の絶対偏差の平均を実際の値で割ったものです。 ラベル属性の値は実際の値です。 範囲:ブール
- relative_error_lenient平均許容相対誤差は、実際の値からの予測の絶対偏差の平均を、実際の値と予測の最大値で割ったものです。 ラベル属性の値は実際の値です。 範囲:ブール
- relative_error_strict平均厳密相対誤差は、実際の値からの予測の絶対偏差を実際の値と予測の最小値で割った平均です。 ラベル属性の値は実際の値です。 範囲:ブール
- normalized_absolute_error平均が予測された場合に発生した誤差で割った絶対誤差。 範囲:ブール
- root_relative_squared_error平均化されたルート相対二乗誤差。 範囲:ブール
- squared_error平均二乗誤差。 範囲:ブール
- correlation ラベルと予測属性の間の相関係数を返します。 範囲:ブール
- squared_correlation ラベルと予測属性の間の二乗相関係数を返します。 範囲:ブール
- predict_averageすべての予測の平均を返します。すべての予測値が加算され、合計が予測の総数で除算されます。 範囲:ブール
- spearman_rho Spearmanのrhoを使用した、実際のラベルと予測ラベルの間のランク相関。スピアマンのローは、2つの変数間の線形関係の尺度です。この場合の2つの変数は、 ラベルと予測属性です。 範囲:ブール
- kendall_tau Kendallのtau-bを使用した、実際のラベルと予測されたラベル間のランク相関。ケンドールのタウは相関の尺度であるため、2つの変数間の関係の強さを測定します。この場合の2つの変数は、 ラベルと予測属性です。 範囲:ブール
- skip_undefined_labels trueに設定されている場合、未定義のラベルを持つ例はスキップされます。 範囲:ブール
- comparator_classこれはエキスパートパラメータです。 PerformanceComparator実装の完全修飾クラス名はここで指定されます。 範囲:文字列
- use_example_weightsこのパラメーターを使用すると、可能であれば統計的なパフォーマンスの計算にサンプルの重みを使用できます。 重みの役割を持つ属性がない場合、このパラメーターは効果がありません。例の重みを考慮するためにExampleSetは重量役割を持つ属性を持っている必要があります。 重みの生成演算子など、 重みを割り当てるいくつかの演算子を使用できます。 重みの役割に関する詳細については、役割の設定演算子を調べてください。 範囲:ブール
チュートリアルプロセス
多項式データセットにパフォーマンス(回帰)演算子を適用
「多項式」データセットは、Retrieve演算子を使用してロードされます。 Filter Example Range演算子が適用されます。 [フィルターの例の範囲]パラメーターの最初の例のパラメーターは1に設定され、最後の例のパラメーターは100に設定されます。したがって、 ‘多項式’データセットの最初の100個の例が選択されます。すべてのパラメーターのデフォルト値を使用して、線形回帰演算子が適用されます。線形回帰演算子によって生成された回帰モデルは、モデルの適用演算子を使用して、「多項式」データセットの最後の100個の例に適用されます。モデルの適用演算子からのラベル付きデータは、パフォーマンス(回帰)演算子に提供されます。絶対誤差および予測平均パラメーターはtrueに設定されます。したがって、パフォーマンス(回帰)演算子によって生成されたパフォーマンスベクトルには、ラベル付きデータセットの絶対誤差と予測平均に関する情報があります。絶対誤差は、ラベル属性の実際の値からすべての予測値の差を加算し、この合計を予測の総数で割ることによって計算されます。予測平均は、すべての実際のラベル値を追加し、この合計を例の総数で割ることによって計算されます。これは、結果ワークスペースの結果から確認できます。