RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Local Polynomial Regression

概要

この演算子は、指定されたExampleSetからローカル多項式回帰モデルを生成します。回帰は、数値予測に使用される手法です。

詳細

ローカル多項式回帰演算子は、ローカル回帰を実行する機能を提供します。これは、データ空間内のポイントのラベル値が要求された場合、このポイントのローカル近傍が検索されることを意味します。この検索で​​は、 数値メジャーパラメーターで指定された距離メジャーが使用されます。近傍が決定されると、そのデータポイントは、重み付き最小二乗最適化を使用して、指定された次数の多項式を近似するために使用されます。データ空間内の要求されたポイントでのこの多項式の値が結果として返されます。多項式のフィッティング中、近傍データポイントは、要求されたポイントまでの距離によって重み付けされます。ここでも、パラメータで指定された距離関数が使用されます。重みは、 スムージングカーネルパラメーターで指定されたカーネルスムーザーを使用して、距離から計算されます。結果の重みは、最小二乗最適化に含まれます。トレーニングExampleSetに重み属性が含まれている場合、距離ベースの重みに例の重みが乗算されます。 堅牢な推定使用パラメーターがtrueに設定されている場合、次のローカル多項式回帰と同じパラメーターでウェイトの生成(LPR)が実行されます。さまざまな設定では、このパラメーターを使用する代わりに、重量の生成(LPR)演算子を前処理ステップとして使用できます。その結果、外れ値の重みが小さくなり、最小二乗近似がそれらの影響を受けなくなります。

これはローカルな方法であるため、トレーニングの計算上の必要性は最小限です。実際、各例は、アプリケーションの実行中に高速の近隣検索を提供する方法でのみ保存されます。すべての計算はアプリケーション時間中に実行されるため、たとえばSVM、線形回帰、または単純ベイズよりも遅くなります。実際、トレーニング例の数と属性の数に本当に依存します。 1より高い次数を使用すると、暗黙的に多項式展開を計算する必要があるため、計算にかかる時間が大幅に長くなります。

回帰は、数値予測に使用される手法です。これは、1つの従属変数(ラベル属性)と、独立変数(通常の属性)として知られる他の一連の変化する変数との関係の強さを判断しようとする統計的尺度です。分類がカテゴリラベルの予測に使用されるように、回帰は連続値の予測に使用されます。たとえば、5年の実務経験を持つ大卒者の給与や、価格を考えた場合の新製品の潜在的な販売を予測することができます。回帰は、商品の価格、金利、特定の産業またはセクターなどの特定の要因が資産の価格変動にどの程度影響するかを決定するためによく使用されます。

入力

  • トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。この演算子はノミナル属性を処理できません。数値属性を持つデータセットに適用できます。したがって、多くの場合、この演算子を適用する前に、Nominal to Numerical演算子を使用する必要があります。

出力

  • モデル(モデル)回帰モデルは、この出力ポートから提供されます。これで、このモデルを非表示のデータセットに適用できます。
  • サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力を変更することなく渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • degree (integer)このパラメーターは、局所近似多項式の次数を指定します。次数が2を超えると計算時間が非常に長くなり、おそらく過剰適合の影響を受けることに注意してください。 範囲:整数
  • ridge_factorこのパラメーターは、リッジ係数を指定します。この係数は、高い係数にペナルティを科すために使用されます。過剰適合を回避するために、リッジ係数を増やすことができます。 範囲:実数
  • use_robust_estimationこのパラメーターをtrueに設定すると、例の再重み付けが実行され、外れ値の重みが小さくなります。 範囲:ブール
  • use_weightsこのパラメーターは、指定されたサンプルセットにサンプルウェイトが存在する場合に使用するかどうかを示します。 範囲:ブール
  • iterationsこのパラメーターは、 ロバスト推定使用パラメーターがtrueに設定されている場合にのみ使用できます。このパラメーターは、重み計算のために実行される反復の数を指定します。 範囲:整数
  • numeric_measureこのパラメータは、距離計算の数値メジャーを指定します。 範囲:選択
  • Neighborhood_typeこのパラメータは、使用する近傍のタイプを決定します。 範囲:選択
  • kこのパラメーターは、 近傍タイプパラメーターが「固定数」に設定されている場合にのみ使用できます。近隣の近隣の数を指定します。ローカル密度に関係なく、常にk個のサンプルが返されます。 範囲:整数
  • fixed_distanceこのパラメーターは、 近傍タイプパラメーターが「固定距離」に設定されている場合にのみ使用できます。近傍のサイズを指定します。この距離内のすべてのポイントが追加されます。 範囲:実数
  • relative_sizeこのパラメーターは、 近傍タイプパラメーターが ‘Relative Number’に設定されている場合にのみ使用可能です。例の総数に対する相対的な近傍のサイズを指定します。たとえば、0.04の値には、近隣へのデータポイントの4%が含まれます。 範囲:実数
  • distanceこのパラメーターは、 近傍タイプパラメーターが「少なくとも距離」に設定されている場合にのみ使用できます。近傍のサイズを指定します。この距離内のすべてのポイントが追加されます。 範囲:実数
  • at_leastこのパラメーターは、 近傍タイプパラメーターが「少なくとも距離」に設定されている場合にのみ使用できます。近隣のカウントがこの数値よりも小さい場合、この数値に達するまで距離が増加します。 範囲:整数
  • smoothing_kernelこのパラメータは、遠い例の重みを計算するために使用するカーネルタイプを決定します。 範囲:選択

チュートリアルプロセス

多項式データセットにローカル多項式回帰演算子を適用する

「多項式」データセットは、Retrieve演算子を使用してロードされます。データセットの分割演算子が適用され、ExampleSetがトレーニングデータセットとテストデータセットに分割されます。 Local Polynomial Regression演算子は、トレーニングデータセットに適用されます。次数パラメーターは3に設定され、近傍タイプパラメーターは「相対数」に設定され、相対サイズは0.5に設定されます。 Local Polynomial Regression演算子によって生成された回帰モデルは、Apply Model演算子を使用して、「Polynomial」データセットのテストデータセットに適用されます。モデルの適用演算子によって生成されたラベル付きデータセットは、パフォーマンス(回帰)演算子に提供されます。絶対誤差と予測平均パラメーターはtrueに設定されます。したがって、パフォーマンス(回帰)演算子によって生成されたパフォーマンスベクトルには、ラベル付きデータセットの絶対誤差と予測平均に関する情報があります。絶対誤差は、ラベル属性の実際の値からすべての予測値の差を加算し、この合計を予測の総数で割ることによって計算されます。予測平均は、すべての実際のラベル値を追加し、この合計を例の総数で割ることによって計算されます。これは、結果ワークスペースの結果から確認できます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル