RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Correlation Matrix

概要

この演算子は、すべての属性間の相関を決定し、これらの相関に基づいて重みベクトルを生成できます。相関は、属性のペアが関連しているかどうか、またどの程度強く関連しているかを示すことができる統計的手法です。

詳細

相関は、-1と+1の間の数であり、2つの属性間の関連付けの程度を測定します(XとYと呼びます)。相関の正の値は、正の関連付けを意味します。この場合、Xの大きな値はYの大きな値に関連付けられ、Xの小さな値はYの小さな値に関連付けられる傾向があります。相関の負の値は、負または逆の関連付けを意味します。この場合、Xの大きな値はYの小さな値と関連付けられる傾向があり、その逆も同様です。

2つの属性XとYがあり、それぞれ平均がX ‘とY’で、標準偏差がそれぞれS(X)とS(Y)であるとします。相関は、1からnの積(X(i)-X ‘)。(Y(i)-Y’)の合計として計算され、この合計を積(n-1).S(X)で除算します。 .S(Y)ここで、 nは例の合計数、 iは合計の増分変数です。他の式や定義もありますが、簡単にするためにこれに固執してみましょう。

前に説明したように、相関の正の値は正の関連付けを意味します。 X値が平均を上回り、関連するY値も平均を上回っていると仮定します。その場合、積(X(i)-X ‘)。(Y(i)-Y’)は、正の2つの正数の積になります。 X値とY値の両方が平均を下回った場合、上の積は2つの負の数になり、これも正になります。したがって、正の相関は、Xの大きな値がYの大きな値に関連付けられ、Xの小さな値がYの小さな値に関連付けられるという一般的な傾向の証拠です。

前述のように、相関の負の値は、負または逆の関連を意味します。 X値が平均を上回り、関連するY値が平均を下回ったと仮定します。その場合、積(X(i)-X ‘)。(Y(i)-Y’)は正の数と負の数の積になり、製品が負になります。 X値が平均を下回り、Y値が平均を上回った場合、上の製品も負になります。したがって、負の相関は、Xの大きな値がYの小さな値に関連付けられ、Xの小さな値がYの大きな値に関連付けられるという一般的な傾向の証拠です。

この演算子は、入力ExampleSetのすべての属性の相関を示す相関行列を作成するために使用できます。属性の重みベクトル。この演算子は、相関に基づいて返すこともできます。この重みベクトルを使用すると、重みによる選択演算子を使用して、相関の高い属性をExampleSetから削除できます。相関の高い属性は、相関属性の削除演算子を使用するだけで簡単に削除できます。通常、相関属性は動作が似ており、予測の計算にほとんど影響しないため、削除されます。また、実行時間とメモリ使用量を妨げる可能性があります。

入力

  • サンプルセット (IOObject)この入力ポートには、相関行列が計算されるExampleSetが必要です。

出力

  • サンプルセット(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。
  • マトリックス(IOObject)入力ExampleSetのすべての属性の相関が計算され、結果の相関行列がこのポートから返されます。名目上の属性の相関関係は十分に定義されておらず、値が欠落しています。属性に欠損値が含まれる場合、ペアの完全なタプルのみが相関の計算に使用されます。
  • 重み(平均ベクトル)属性の相関に基づく属性重みベクトルは、この出力ポートを介して配信されます。

パラメーター

  • attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。属性の選択に使用する方法。次のオプションがあります。
    • all:このオプションは、ExampleSetのすべての属性を選択します。属性は削除されません。これがデフォルトのオプションです。
    • single:このオプションにより、単一の属性を選択できます。必須の属性は、属性パラメーターによって選択されます。
    • subset:このオプションを使用すると、リストから複数の属性を選択できます(パラメーター属性を参照)。 ExampleSetのメタデータがわかっている場合、すべての属性がリストに存在し、必要な属性を簡単に選択できます。
    • regular_expression:このオプションにより、属性選択の正規表現を指定できます。正規表現フィルターは、正規表現パラメーターによって構成されます。excessexpressionおよびexcept expressionを使用します。
    • value_type:このオプションにより、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。値タイプフィルターは、パラメーター値タイプによって構成されます。値タイプを除く値タイプ例外を使用します。
    • block_type:このオプションを使用すると、特定のブロックタイプのすべての属性を選択できます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。ブロックタイプフィルターは、パラメーターブロックタイプによって構成され、ブロックタイプを除くブロックタイプ例外を使用します。
    • no_missing_values:このオプションは、例に欠損値を含まないExampleSetのすべての属性を選択します。欠損値が1つでもある属性は削除されます。
    • numeric_value_filter:例がすべて所定の数値条件に一致するすべての数値属性が選択されます。条件は、数値条件パラメーターによって指定されます。すべての名目上の属性も、指定された数値条件に関係なく選択されることに注意してください。

    範囲:

  • 属性必要な属性は、このオプションから選択できます。メタデータがわかっている場合、パラメータのドロップダウンボックスから属性名を選択できます。範囲:
  • 属性このオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性が左側のリストにあります。それらは、出力ポートに到達する選択された属性のリストである右側のリストに移動できます。範囲:
  • 正規表現この式に名前が一致する属性が選択されます。式は、 正規表現の編集およびプレビューメニューで指定できます。このメニューは、正規表現の良いアイデアを提供します。また、異なる表現を試して結果を同時にプレビューすることもできます。範囲:
  • use_except_expression有効にすると、最初の正規表現の例外を指定できます。この例外は、 except regular expressionパラメーターによって指定されます。範囲:
  • except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の表現( 正規表現パラメーターで指定された表現 )に一致する場合でも除外されます。範囲:
  • value_typeこのオプションにより、属性のタイプを選択できます。次のタイプのいずれかを選択できます:名義、数値、整数、実数、テキスト、二項、多項式、file_path、date_time、date、time。範囲:
  • use_value_type_exception有効にすると、選択したタイプの例外を指定できます。この例外は、 except value typeパラメーターによって指定されます。範囲:
  • except_value_typeこのタイプに一致する属性は、 値タイプパラメーターで指定された前に選択されたタイプと一致した場合でも、最終出力から削除されます。ここでは、名義、数値、整数、実数、テキスト、二項、多項式、file_path、date_time、date、timeのいずれかのタイプを選択できます。範囲:
  • block_typeこのオプションにより、属性のブロックタイプを選択できます。次のタイプのいずれかを選択できます:single_value、value_series、value_series_start、value_series_end、value_matrix、value_matrix_start、value_matrix_end、value_matrix_row_start。範囲:
  • use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。この例外は、 except block typeパラメーターによって指定されます。範囲:
  • except_block_typeこのブロックタイプに一致する属性は、 ブロックタイプパラメーターによって選択された前のタイプと一致した場合でも、最終出力から削除されます。ここでは、single_value、value_series、value_series_start、value_series_end、value_matrix、value_matrix_start、value_matrix_end、value_matrix_row_startのいずれかのブロックタイプを選択できます。範囲:
  • numeric_condition数値条件フィルタータイプで使用される数値条件。すべての例がこの属性に指定された条件に一致する場合、数値属性が保持されます。たとえば、数値条件「> 6」は、すべての例で6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。指定された数値条件に関係なく、公称属性は常に保持されます。範囲:
  • include_special_attributes特別な属性は、特別な役割を持つ属性です。これらは、ID、ラベル、予測、クラスター、重量、バッチです。また、カスタムロールを属性に割り当てることができます。デフォルトでは、属性の選択演算子の条件に関係なく、すべての特別な属性が出力ポートに配信されます。このパラメーターがtrueに設定されている場合、特別な属性も属性選択演算子で指定された条件に対してテストされ、条件に一致する属性のみが選択されます。範囲:
  • invert_selectionこのパラメーターをtrueに設定すると、選択が逆になります。その場合、指定された条件に一致するすべての属性が削除され、他の属性は出力ExampleSetに残ります。特別な属性は、特別な属性を含めるパラメーターがtrueに設定されていないため、 反転選択パラメーターとは無関係に保持されます。その場合、条件は特別な属性にも適用され、このパラメーターがチェックされている場合は選択が逆になります。範囲:
  • normalize_weightsこのパラメーターは、結果の属性重みベクトルの重みを正規化する必要があるかどうかを示します。 trueに設定されている場合、すべての重みは、最小重みが0、最大重みが1になるように正規化されます。 範囲:ブール
  • squared_correlationこのパラメーターは、二乗相関を計算する必要があるかどうかを示します。 trueに設定すると、相関行列は単純な相関ではなく相関の二乗を表示します。 範囲:ブール

チュートリアルプロセス

ゴルフデータセットの相関行列

「ゴルフ」データセットは、検索演算子を使用してロードされます。 ExampleSetを表示できるように、ブレークポイントがここに挿入されます。ご覧のとおり、ExampleSetには4つの通常の属性、つまり「Outlook」、「Temperature」、「Humidity」、「Wind」、およびラベル属性「Play」があります。

2つのノミナル値のみを持つすべての属性は、ノミナルからバイナリへの変換を使用して、バイノミナル属性に変換されます。次に、相関行列演算子が結果に適用されます。この演算子によって生成された重みベクトルは、データセットとともに重みによる選択演算子に提供されます。重みによる選択演算子のパラメーターは、0.5より大きい重みを持つ属性が選択され、他のすべての属性が削除されるように調整されます。これが、結果のExampleSetに ‘Play’および ‘Temperature’属性のみがある理由です。

相関行列、重みベクトル、および結果のExampleSetは、結果ワークスペースで表示できます。相関行列については、Outlookは名目上の属性であるため、相関関係を計算することはできません。属性とその自己の相関は常に1であるため、対角エントリはすべて1です。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル