RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Normalize

概要

この演算子は、選択した属性の値を正規化します。

詳細

正規化は、特定の範囲に収まるように値をスケーリングするために使用されます。異なる単位とスケールの属性を扱う場合、値の範囲を調整することは非常に重要です。たとえば、ユークリッド距離を使用する場合、公正な比較のためにすべての属性のスケールを同じにする必要があります。正規化は、サイズが異なる属性を比較するのに役立ちます。この演算子は、選択した属性の正規化を実行します。 4つの正規化方法が提供されています。これらのメソッドは、パラメーターで説明されています。

分化

Scale by Weights

この演算子を使用して、事前に計算された重みで属性をスケーリングできます。値の範囲を共通のスケールに調整する代わりに、この演算子を使用して重要な属性にさらに重みを付けることができます。

De-Normalize

この演算子を使用して、以前に適用された正規化を元に戻すことができます。正規化演算子によって返される前処理モデルが必要です。

入力

  • サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。

出力

  • サンプルセット(IOObject)正規化された形式で選択された属性を持つExampleSetは、このポートの出力です。
  • オリジナル(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。
  • 前処理モデル(前処理モデル)このポートは前処理モデルを提供します。これは、別のExampleSetで指定された正規化を実行するために、モデルの適用演算子によって使用できます。これは、たとえば、トレーニング中に正規化が使用され、テストまたは実際のデータに同じ変換を適用する必要がある場合に役立ちます。前処理モデルは、グループモデルオペレーターによって他の前処理モデルおよび学習モデルと一緒にグループ化することもできます。

パラメーター

  • create_view基になるデータを変更する代わりにビューを作成します。このオプションをオンにすると、変換が必要になるまで正規化が遅れます。このパラメーターは、レガシーオプションと見なすことができます。

    範囲:

  • attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。属性の選択に使用する方法。次のオプションがあります。
    • all:このオプションは、ExampleSetのすべての属性を選択するため、属性は削除されません。これがデフォルトのオプションです。
    • single:このオプションでは、単一の属性を選択できます。必須の属性は、属性パラメーターによって選択されます。
    • サブセット:このオプションを使用すると、リストから複数の属性を選択できます(パラメーター属性を参照)。 ExampleSetのメタデータが既知の場合、すべての属性がリストに存在し、必要な属性を簡単に選択できます。
    • regular_expression:このオプションにより、属性選択の正規表現を指定できます。正規表現フィルターは、正規表現パラメーターによって構成されます。excessexpressionおよびexcept expressionを使用します。
    • value_type:このオプションにより、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型の両方が数値型に属します。値タイプフィルターは、パラメーター値タイプによって構成されます。値タイプを除く値タイプ例外を使用します。
    • block_type:このオプションを使用すると、特定のブロックタイプのすべての属性を選択できます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。ブロックタイプフィルターは、パラメーターブロックタイプによって構成され、ブロックタイプを除くブロックタイプ例外を使用します。
    • no_missing_values:このオプションは、ExampleSetのすべての属性を選択します。これには、どの例にも欠損値が含まれていません。欠損値が1つでもある属性は削除されます。
    • numeric_value_filter:例がすべて所定の数値条件に一致するすべての数値属性が選択されます。条件は、数値条件パラメーターによって指定されます。すべての名目上の属性も、指定された数値条件に関係なく選択されることに注意してください。

    範囲:

  • attribute必要な属性は、このオプションから選択できます。メタデータがわかっている場合、パラメータのドロップダウンボックスから属性名を選択できます。

    範囲:

  • attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性が左側のリストにあります。それらは、出力ポートに到達する選択された属性のリストである右リストにシフトできます。

    範囲:

  • regular_expressionこの式に名前が一致する属性が選択されます。式は、 正規表現の編集およびプレビューメニューで指定できます。このメニューは、正規表現の良いアイデアを提供します。また、異なる表現を試して結果を同時にプレビューすることもできます。

    範囲:

  • use_except_expression有効にすると、最初の正規表現の例外を指定できます。この例外は、 except regular expressionパラメーターによって指定されます。

    範囲:

  • except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の表現( 正規表現パラメーターで指定された表現 )に一致する場合でも除外されます。

    範囲:

  • value_typeこのオプションにより、属性のタイプを選択できます。次のタイプのいずれかを選択できます:名義、数値、整数、実数、テキスト、二項、多項式、file_path、date_time、date、time。

    範囲:

  • use_value_type_exception有効にすると、選択したタイプの例外を指定できます。この例外は、 except value typeパラメーターによって指定されます。

    範囲:

  • except_value_typeこのタイプに一致する属性は、 値タイプパラメーターで指定された前に選択されたタイプに一致した場合でも、最終出力から削除されます。ここでは、名義、数値、整数、実数、テキスト、二項、多項式、file_path、date_time、日時のいずれかのタイプを選択できます。

    範囲:

  • block_typeこのオプションにより、属性のブロックタイプを選択できます。次のタイプのいずれかを選択できます:single_value、value_series、value_series_start、value_series_end、value_matrix、value_matrix_start、value_matrix_end、value_matrix_row_start。

    範囲:

  • use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。この例外は、 except block typeパラメーターによって指定されます。

    範囲:

  • except_block_typeこのブロックタイプに一致する属性は、 ブロックタイプパラメーターによって以前に選択されたタイプに一致した場合でも、最終出力から削除されます。ここでは、single_value、value_series、value_series_start、value_series_end、value_matrix、value_matrix_start、value_matrix_end、value_matrix_row_startのいずれかのブロックタイプを選択できます。

    範囲:

  • numeric_condition数値条件フィルタータイプで使用される数値条件。すべての例がこの属性に指定された条件に一致する場合、数値属性が保持されます。たとえば、数値条件「> 6」は、すべての例で6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。指定された数値条件に関係なく、公称属性は常に保持されます。

    範囲:

  • invert_selectionこのパラメーターをtrueに設定すると、選択が逆になります。この場合、指定された条件に一致するすべての属性が削除され、他の属性は出力ExampleSetに残ります。特別な属性は、特別な属性を含めるパラメーターがtrueに設定されていないため、 反転選択パラメーターとは無関係に保持されます。その場合、条件は特別な属性にも適用され、このパラメーターがチェックされている場合は選択が逆になります。

    範囲:

  • include_special_attributes特別な属性は、特別な役割を持つ属性です。これらは、ID、ラベル、予測、クラスター、重量、バッチです。また、カスタムロールを属性に割り当てることができます。デフォルトでは、属性の選択演算子の条件に関係なく、すべての特別な属性が出力ポートに配信されます。このパラメーターがtrueに設定されている場合、特殊属性も属性選択演算子で指定された条件に対してテストされ、条件に一致する属性のみが選択されます。

    範囲:

  • methodここでは、データを正規化するための4つの方法が提供されています。これらの方法は、添付のチュートリアルプロセスでも説明されています。
    • z_transformation:これは統計的正規化とも呼ばれます。この正規化は、すべての値からデータの平均を引き、それらを標準偏差で除算します。その後、データの分布の平均はゼロになり、分散は1になります。これは、一般的で非常に便利な正規化手法です。データの元の分布を保持し、外れ値の影響を受けにくくなります。
    • range_transformation:範囲変換は、すべての属性値を指定された値範囲に正規化します。この方法を選択すると、パラメーターパネルに他の2つのパラメーター(最小、最大)が表示されます。したがって、最大値は「max」に設定され、最小値は「min」に設定されます。他のすべての値はスケーリングされるため、指定された範囲に収まります。このメソッドは、境界線が外れ値に向かって移動するため、外れ値の影響を受ける可能性があります。一方、この方法はデータポイントの元の分布を保持するため、データの匿名化にも使用できます。たとえば、観測の真の範囲を難読化します。
    • proportion_transformation:この正規化は、各属性値が完全な属性に占める割合に基づいています。これは、各値がその属性値の合計で除算されることを意味します。合計は、NaN /欠損値と正および負の無限大を無視して、有限値からのみ形成されます。このメソッドを選択すると、別のパラメーター(負の値を許可)がパラメーターパネルに表示されます。チェックした場合、負の値は絶対値として扱われます。そうでない場合、実行時にエラーが発生します。
    • interquartile_range:正規化は、四分位範囲を使用して実行されます。四分位範囲は、25パーセンタイルと75パーセンタイルの間の距離であり、これは下位四分位または上位四分位またはQ1とQ3とも呼ばれます。それらは、最初にデータをソートし、次に例の最初の(または最後の)25%を残りから分離するデータ値を取得することによって計算されます。中央値は50パーセンタイルなので、ソートされた値を半分に分ける値です。四分位範囲(IQR)は、Q3とQ1の差です。四分位範囲の正規化の最終式は次のとおりです。(値の中央値)/ IQR IQRはデータの中間50%の間の範囲であるため、この正規化方法は外れ値の影響を受けにくくなります。このメソッドでは、NaN /欠損値、および無限値は無視されます。また、有限値が見つからなかった場合、対応する属性は無視されます。

    範囲:

  • minこのパラメーターは、 methodパラメーターが「範囲変換」に設定されている場合にのみ使用できます。範囲の最小点を指定するために使用されます。

    範囲:

  • maxこのパラメーターは、 methodパラメーターが「範囲変換」に設定されている場合にのみ使用できます。範囲の最大点を指定するために使用されます。

    範囲:

  • allow_negative_valuesこのパラメーターは、 methodパラメーターが「比例変換」に設定されている場合にのみ使用できます。処理された属性で負の値を許可または禁止するために使用されます。負の値は、絶対値としてカウントされます。

    範囲:

チュートリアルプロセス

タイタニックデータの年齢と乗客運賃の正規化

このチュートリアルプロセスでは、タイタニックデータから年齢と旅客運賃の属性を取得し、それらの正規化を実行します。属性の値の範囲は大きく異なります(最高年齢は80で、最高運賃は約500です)。また、旅客運賃には、他のすべての運賃よりもはるかに高い1つの値があります。したがって、外れ値と見なすことができます。 Z変換を適用すると、両方の属性の中心が0になります。メソッドを四分位範囲に変更すると、1つの外れ値がそれほど影響を及ぼさないため、旅客運賃の値が少し均等に広がります。視覚化するには、ヒストグラムチャートビューを使用するのが最適です。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル