RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Optimize Weights (Forward)

概要

この演算子は、属性の重みを計算することにより、指定されたExampleSetの属性の関連性を計算します。この演算子は、属性が独立していると想定し、線形検索で属性の重みを最適化します。

詳細

重みの最適化(転送)演算子は、ネストされた演算子です。つまり、サブプロセスがあります。重みの最適化(転送)演算子のサブプロセスは、常にパフォーマンスベクトルを返す必要があります。サブプロセスに関する詳細については、サブプロセス演算子をご覧ください。重みの最適化(転送)演算子は、サブプロセスによって返されたパフォーマンスベクトルを使用して、指定されたExampleSetの属性の重みを計算します。属性の重みが大きいほど、より関連性が高いと見なされます。

この演算子は、特徴が互いに独立しているという単純な仮定の下で重み付けを実行します。各属性は線形検索で重み付けされます。このアプローチは、機能が実際に高度に相関していない場合、短時間で良い結果をもたらす可能性があります。

分化

Optimize Weights (Evolutionary)

重みの最適化(進化)演算子は、進化的アプローチを使用して、指定されたExampleSetの属性の関連性を計算します。属性の重みは、遺伝的アルゴリズムを使用して計算されます。

入力

  • 設定された例(IOObject)この入力ポートには、ExampleSetが必要です。このExampleSetは、サブプロセスで処理するために、ネストされたチェーンの最初のポート(サブプロセス内)で使用できます。
  • スルー (IOObject)このオペレーターは複数のスルーポートを持つことができます。 1つの入力がスルーポートに接続されると、別のスルーポートが使用可能になり、別の入力(ある場合)を受け入れる準備が整います。入力の順序は同じままです。この演算子の最初のスルーポートで提供されるオブジェクトは、ネストされたチェーンの最初のスルーポート(サブプロセス内)で利用できます。すべての入力を正しい順序で接続することを忘れないでください。サブプロセスレベルで適切な数のポートが接続されていることを確認してください。

出力

  • 設定例(IOObject)縮小された属性を持つ結果のExampleSetは、このポート経由で配信されます。
  • 重み(平均ベクトル)属性の重みは、このポートを介して配信されます。
  • パフォーマンス(パフォーマンスベクトル)このポートは、選択した属性のパフォーマンスベクトルを提供します。パフォーマンスベクトルは、パフォーマンス基準値のリストです。

パラメーター

  • keep_bestこのパラメーターは、各世代で保持する最適な個人の数を指定します。 範囲:整数
  • generations_without_improvalこのパラメーターは、早期停止の停止基準を指定します。つまり、パフォーマンスを改善せずにn世代後に停止します。 nはこのパラメーターで指定されます。 範囲:整数
  • weightsこのパラメーターは、各世代の個人の作成に使用される重みを指定します。 範囲:文字列
  • normalize_weightsこのパラメーターは、最終的な重みを正規化する必要があるかどうかを示します。 trueに設定すると、最大の重みが1、最小の重みが0になるように最終的な重みが正規化されます。 範囲:ブール値
  • use_local_random_seedこのパラメーターは、ランダム化にローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じランダム化が生成されます。 範囲:ブール
  • local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
  • show_stop_dialogこのパラメーターは、最適な機能スペースの検索を停止する停止ボタンのあるダイアログを表示するかどうかを決定します。最適なフィーチャスペースの検索が停止されると、それまでに見つかった最適な個人が返されます。 範囲:ブール
  • user_result_individual_selectionこのパラメーターがtrueに設定されている場合、ユーザーは最後の母集団から最終結果の個人を選択できます。 範囲:ブール
  • show_population_plotterこのパラメーターは、現在の人口をパフォーマンススペースに表示するかどうかを決定します。 範囲:ブール
  • plot_generationsこのパラメーターは、 show population plotterパラメーターがtrueに設定されている場合にのみ使用できます。人口プロッターはこれらの世代で更新されます。 範囲:整数
  • constraint_draw_rangeこのパラメーターは、 show population plotterパラメーターがtrueに設定されている場合にのみ使用できます。このパラメーターは、ポピュレーションプロッターの描画範囲を0〜1に制限するかどうかを決定します。 範囲:ブール値
  • draw_dominated_pointsこのパラメーターは、 show population plotterパラメーターがtrueに設定されている場合にのみ使用できます。このパラメーターは、母集団プロッターでパレート支配ではない点のみを描画するかどうかを決定します。 範囲:ブール
  • population_criteria_data_fileこのパラメーターは、最終母集団の基準データを保存するファイルへのパスを指定します。 範囲:ファイル名
  • maximal_fitnessこのパラメーターは、最大適合度を指定します。適合度がこの値に達すると、最適化は停止します。 範囲:実数

チュートリアルプロセス

多項式データセットの属性の重みを計算する

「多項式」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには、label属性以外に5つの通常の属性があることがわかります。重みの最適化(前方)演算子は、ネストされた演算子であるExampleSetに適用されます。つまり、サブプロセスがあります。サブプロセスがパフォーマンスベクトルを提供する必要があります。このパフォーマンスベクトルは、基になるアルゴリズムによって使用されます。この演算子のサブプロセスを見てください。そこでは、分割検証演算子が使用されており、それ自体がネストされた演算子です。 Split Validationオペレーターのサブプロセスをご覧ください。 SVMオペレーターは、モデルをトレーニングするための「トレーニング」サブプロセスで使用されます。トレーニング済みモデルは、「テスト」サブプロセスの「モデルの適用」演算子を使用して適用されます。パフォーマンスは、Performanceオペレーターを介して測定され、結果のパフォーマンスベクトルは、基礎となるアルゴリズムによって使用されます。プロセスを実行し、結果ワークスペースに切り替えます。 5つの属性を持っていたExampleSetが2つの属性に削減されていることがわかります。また、結果ワークスペースで属性の重みを確認します。 2つの属性の重みが0以外で、残りの属性の重みが0であることがわかります。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル