RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Weight by Chi Squared Statistic

概要

この演算子は、入力ExampleSetの各属性に対してクラス属性に関するカイ2乗統計量の値を計算することにより、属性の関連性を計算します。

詳細

カイ二乗統計による重み演算子は、カイ二乗統計を使用して、クラス属性に関する属性の重みを計算します。属性の重みが大きいほど、より関連性が高いと見なされます。カイ2乗統計は名義ラベルに対してのみ計算できることに注意してください。したがって、この演算子は名義ラベルのあるExampleSetにのみ適用できます。

カイ2乗統計は、観測された頻度の分布が理論上の予想頻度と異なるかどうかを判断するために使用されるノンパラメトリック統計手法です。カイ2乗統計は名義データを使用するため、このテストでは平均と分散を使用する代わりに、頻度を使用します。カイ2乗統計量の値は

X2 =シグマ[(OE)2 / E]

ここで、 X2はカイ2乗統計量、 Oは観測された頻度、 Eは予想される頻度です。一般に、カイ二乗統計は、各結果が発生する予想回数(モデルが真であると仮定)と各結果が発生する観測回数との間の不一致を要約し、不一致の二乗を期待数で正規化し、すべてのカテゴリにわたって。

入力

  • サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。

出力

  • 重み (平均ベクトル)このポートは、ラベル属性に関する属性の重みを提供します。重みが大きい属性ほど関連性が高いと見なされます。
  • サンプルセット (IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • normalize_weightsこのパラメーターは、計算された重みを正規化するかどうかを示します。 trueに設定すると、すべての重みが0〜1の範囲で正規化されます。 範囲:ブール値
  • sort_weightsこのパラメーターは、結果の重みに従って属性をソートするかどうかを示します。このパラメーターがtrueに設定されている場合、ソートの順序は、 ソート方向パラメーターを使用して指定されます。 範囲:ブール
  • sort_directionこのパラメーターは、 ソートの重みパラメーターがtrueに設定されている場合にのみ使用できます。このパラメーターは、重みに応じて属性のソート順を指定します。 範囲:選択
  • number_of_binsこのパラメーターは、カイ2乗検定を実行する前に数値属性の離散化に使用されるビンの数を指定します。 範囲:整数

チュートリアルプロセス

Golfデータセットの属性の重みの計算

「ゴルフ」データセットは、検索演算子を使用してロードされます。カイ二乗統計による重み演算子が適用され、属性の重みが計算されます。すべてのパラメーターはデフォルト値で使用されます。重みの正規化パラメーターがtrueに設定されているため、すべての重みは0〜1の範囲で正規化されます。並べ替えの重みパラメーターはtrueに設定され、並べ替えの方向パラメーターは「昇順」に設定されているため、結果は昇順になります重みの。これを確認するには、結果ワークスペースでこのプロセスの結果を表示します。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル