Polynomial Regression
概要
この演算子は、指定されたExampleSetから多項式回帰モデルを生成します。多項式回帰は、多重線形回帰の特殊なケースと見なされます。
詳細
多項式回帰は、独立変数xと従属変数yの間の関係がn次多項式としてモデル化される線形回帰の形式です。 RapidMinerでは、 yはラベル属性で、 xはyの予測に使用される通常の属性のセットです。多項式回帰は、 xの値とE(y | x)で示されるyの対応する条件付き平均との非線形関係に適合し、組織の成長速度や病気の流行の進行などの非線形現象を記述するために使用されています。多項式回帰は非線形モデルをデータに適合させますが、統計推定問題としては線形です。つまり、回帰関数E(y | x)は、データから推定される未知のパラメーターで線形です。このため、多項式回帰は多重線形回帰の特殊なケースと見なされます。
回帰分析の目的は、独立変数(または独立変数のベクトル) xの値に関して、従属変数yの期待値をモデル化することです。単純な線形回帰では、次のモデルが使用されます。
y = w0 +(w1 * x)
このモデルでは、 xの値が増加する単位ごとに、 yの条件付き期待値はw1単位増加します。
多くの設定では、このような線形関係は成り立たない場合があります。たとえば、合成が行われる温度に関して化学合成の収率をモデリングしている場合、単位温度の増加ごとに量を増やすことで収率が向上することがわかります。この場合、次の形式の2次モデルを提案できます。
y = w0 +(w1 * x1 ^ 1)+(w2 * x2 ^ 2)
このモデルでは、温度がxからx + 1単位に増加すると、予想される収量はw1 + w2 + 2(w2 * x)だけ変化します。利回りの変化がxに依存するという事実は、関係を非線形にするものです(これは非線形回帰であると混同しないでください。逆に、これは依然として線形回帰の場合です)。一般的に、我々は、一般的な多項式回帰モデルを得、n次多項式としてYの期待値をモデル化することができます。
y = w0 +(w1 * x1 ^ 1)+(w2 * x2 ^ 2)+。 。 。 +(wm * xm ^ m)
回帰は、数値予測に使用される手法です。これは、1つの従属変数(ラベル属性)と、独立変数(通常の属性)として知られる他の一連の変化する変数との関係の強さを判断しようとする統計的尺度です。分類がカテゴリラベルの予測に使用されるように、回帰は連続値の予測に使用されます。たとえば、5年の実務経験を持つ大卒者の給与や、価格を考えた場合の新製品の潜在的な販売を予測することができます。回帰は、商品の価格、金利、特定の産業またはセクターなどの特定の要因が資産の価格変動にどの程度影響するかを決定するためによく使用されます。
分化
線形回帰
多項式回帰は、独立変数xと従属変数yの間の関係がn次多項式としてモデル化される線形回帰の形式です。
入力
- トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。この演算子はノミナル属性を処理できません。数値属性を持つデータセットに適用できます。したがって、多くの場合、この演算子を適用する前に、Nominal to Numerical演算子を使用する必要があります。
出力
- モデル(モデル)回帰モデルは、この出力ポートから提供されます。これで、このモデルを非表示のデータセットに適用できます。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力を変更することなく渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- max_iterationsこのパラメーターは、モデルのあてはめに使用される反復の最大数を指定します。 範囲:整数
- replication_factorこのパラメータは、各変数に適用することができるどのように多くの異なる度係数、すなわち、各入力変数が複製される時間の量を指定します。 範囲:整数
- max_degreeこのパラメーターは、最終多項式に使用される最大次数を指定します。 範囲:整数
- min_coefficientこのパラメーターは、係数とオフセットに使用される最小数を指定します。 範囲:実数
- max_coefficientこのパラメーターは、係数とオフセットに使用される最大数を指定します。 範囲:実数
- use_local_random_seedこのパラメーターは、ランダム化にローカルランダムシードを使用する必要があるかどうかを示します。 ローカルランダムシードの同じ値を使用すると、同じランダム化が生成されます。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
チュートリアルプロセス
多項式データセットに多項式回帰演算子を適用する
「多項式」データセットは、Retrieve演算子を使用してロードされます。データセットの分割演算子が適用され、ExampleSetがトレーニングデータセットとテストデータセットに分割されます。多項式回帰演算子は、すべてのパラメーターのデフォルト値を使用してトレーニングデータセットに適用されます。多項式回帰演算子によって生成された回帰モデルは、モデルの適用演算子を使用して、「多項式」データセットのテストデータセットに適用されます。モデルの適用演算子によって生成されたラベル付きデータセットは、パフォーマンス(回帰)演算子に提供されます。絶対誤差と予測平均パラメーターはtrueに設定されます。したがって、パフォーマンス(回帰)演算子によって生成されたパフォーマンスベクトルには、ラベル付きデータセットの絶対誤差と予測平均に関する情報があります。絶対誤差は、ラベル属性の実際の値からすべての予測値の差を加算し、この合計を予測の総数で割ることによって計算されます。予測平均は、すべての実際のラベル値を追加し、この合計を例の総数で割ることによって計算されます。これは、結果ワークスペースの結果から確認できます。