RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Linear Regression

概要

この演算子は、入力ExampleSetから線形回帰モデルを計算します。

詳細

回帰は、数値予測に使用される手法です。回帰は、1つの従属変数(ラベル属性)と、独立変数(通常の属性)として知られる他の一連の変化する変数との関係の強さを判断しようとする統計的尺度です。分類がカテゴリラベルの予測に使用されるように、回帰は連続値の予測に使用されます。たとえば、5年の実務経験を持つ大卒者の給与や、価格を考えた場合の新製品の潜在的な販売を予測することができます。回帰は、商品の価格、金利、特定の産業またはセクターなどの特定の要因が資産の価格変動にどの程度影響するかを決定するためによく使用されます。

線形回帰は、観測データに線形方程式を当てはめることにより、スカラー変数と1つ以上の説明変数との関係をモデル化しようとします。たとえば、線形回帰モデルを使用して、個人の体重を身長に関連付けることができます。

この演算子は、線形回帰モデルを計算します。モデル選択には赤池基準を使用します。赤池情報量基準は、統計モデルの適合の相対的な良さの尺度です。これは、情報エントロピーの概念に基づいており、事実上、特定のモデルを使用して現実を記述するときに失われる情報の相対的な尺度を提供します。モデル構築におけるバイアスと分散の間のトレードオフ、またはモデルの精度と複雑さの間の大まかに言えば、と言うことができます。

分化

多項式回帰

多項式回帰は、独立変数xと従属変数yの間の関係がn次多項式としてモデル化される線形回帰の形式です。

入力

  • トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。この演算子はノミナル属性を処理できません。数値属性を持つデータセットに適用できます。したがって、多くの場合、この演算子を適用する前に、Nominal to Numerical演算子を使用する必要があります。

出力

  •  model (線形回帰モデル)回帰モデルは、この出力ポートから提供されます。これで、このモデルを非表示のデータセットに適用できます。
  • サンプルセット (IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
  • 重み (平均ベクトル)このポートは属性の重みを提供します。

パラメーター

  • feature_selectionこれはエキスパートパラメータです。回帰中に使用される特徴選択方法を示します。次のオプションを使用できます:なし、M5プライム、貪欲、Tテスト、反復Tテスト範囲:選択
  • alphaこのパラメーターは、 機能選択パラメーターが「T-Test」に設定されている場合にのみ使用できます。 T-Test機能選択で使用されるアルファの値を指定します。 範囲:実数
  • max_iterationsこのパラメーターは、 機能選択パラメーターが「反復T検定」に設定されている場合にのみ使用できます。機能選択のための反復T検定の最大反復回数を指定します。 範囲:整数
  • forward_alphaこのパラメーターは、 機能選択パラメーターが「反復T検定」に設定されている場合にのみ使用できます。 T-Test機能選択で使用される前方アルファの値を指定します。 範囲:実数
  • backward_alphaこのパラメーターは、 機能選択パラメーターが「反復T検定」に設定されている場合にのみ使用できます。 T-Test機能選択で使用される後方アルファの値を指定します。 範囲:実数
  • prevent_colinear_featuresこのパラメータは、アルゴリズムが回帰中に同一直線上の特徴を削除しようとするかどうかを示します。 範囲:ブール
  • min_toleranceこのパラメーターは、 共線的特徴除去パラメーターがtrueに設定されている場合にのみ使用できます。同一直線上の特徴を除去するための最小許容値を指定します。 範囲:実数
  • use_biasこのパラメーターは、インターセプト値を計算するかどうかを示します。 範囲:ブール
  • ridgeこのパラメーターは、リッジ回帰で使用するリッジパラメーターを指定します。 範囲:実数

チュートリアルプロセス

多項式データセットに線形回帰演算子を適用する

「多項式」データセットは、Retrieve演算子を使用してロードされます。 Filter Example Range演算子が適用されます。 [フィルターの例の範囲]パラメーターの最初の例のパラメーターは1に設定され、最後の例のパラメーターは100に設定されます。したがって、 ‘多項式’データセットの最初の100個の例が選択されます。すべてのパラメーターのデフォルト値を使用して、線形回帰演算子が適用されます。線形回帰演算子によって生成された回帰モデルは、モデルの適用演算子を使用して、「多項式」データセットの最後の100個の例に適用されます。モデルの適用演算子からのラベル付きデータは、パフォーマンス(回帰)演算子に提供されます。絶対誤差と予測平均パラメーターはtrueに設定されます。したがって、パフォーマンス(回帰)演算子によって生成されたパフォーマンスベクトルには、ラベル付きデータセットの絶対誤差と予測平均に関する情報があります。絶対誤差は、ラベル属性の実際の値からすべての予測値の差を加算し、この合計を予測の総数で割ることによって計算されます。予測平均は、すべての実際のラベル値を追加し、この合計を例の総数で割ることによって計算されます。これは、結果ワークスペースの結果から確認できます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル