Replace Missing Values
概要
この演算子は、選択した属性の例の欠損値を指定の置換に置き換えます。
詳細
欠損値は、その属性の最小値、最大値、または平均値に置き換えることができます。ゼロは、欠損値を置き換えるためにも使用できます。補充値は、欠損値の代替として指定することもできます。
分化
Impute Missing Values
この演算子は、欠損値について学習したモデルを適用することにより、欠損値の値を推定します。
Replace Infinite Values
この演算子は、指定された置換によって無限値を置換します。
Declare Missing Value
欠損値の置換演算子とは対照的に、この演算子は選択した属性の特定の値を欠損値に設定します。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。
出力
- サンプルセット(IOObject)欠損値が置換されたExampleSet。
- オリジナル(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。
- 前処理モデル(前処理モデル)このポートは前処理モデルを提供します。これは、別のExampleSetで欠損値の指定された置換を実行するために、モデルの適用演算子によって使用できます。これは、たとえば、トレーニング中に欠損値の置換演算子を使用し、同じ置換をテストデータまたは実際のデータに適用する必要がある場合に役立ちます。前処理モデルは、グループモデルオペレーターによって他の前処理モデルおよび学習モデルと一緒にグループ化することもできます。
パラメーター
- create_view基になるデータを変更する代わりにビューを作成します。このオプションをオンにすると、変換が必要になるまで置換が遅延します。このパラメーターは、レガシーオプションと見なすことができます。
範囲:
- attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。属性の選択に使用する方法。次のオプションがあります。
- all:このオプションは、ExampleSetのすべての属性を選択します。属性は削除されません。これがデフォルトのオプションです。
- single:このオプションでは、単一の属性を選択できます。必須の属性は、属性パラメーターによって選択されます。
- サブセット:このオプションを使用すると、リストから複数の属性を選択できます(パラメーター属性を参照)。 ExampleSetのメタデータがわかっている場合、すべての属性がリストに存在し、必要な属性を簡単に選択できます。
- regular_expression:このオプションにより、属性選択の正規表現を指定できます。正規表現フィルターは、正規表現パラメーターによって構成されます。excessexpressionおよびexcept expressionを使用します。
- value_type:このオプションにより、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。値タイプフィルターは、パラメーター値タイプによって構成されます。値タイプを除く値タイプ例外を使用します。
- block_type:このオプションを使用すると、特定のブロックタイプのすべての属性を選択できます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。ブロックタイプフィルターは、パラメーターブロックタイプによって構成され、ブロックタイプを除くブロックタイプ例外を使用します。
- no_missing_values:このオプションは、例に欠損値を含まないExampleSetのすべての属性を選択します。欠損値が1つでもある属性は削除されます。
- numeric_value_filter:例がすべて所定の数値条件に一致するすべての数値属性が選択されます。条件は、数値条件パラメーターによって指定されます。すべての名目上の属性も、指定された数値条件に関係なく選択されることに注意してください。
範囲:
- attribute必要な属性は、このオプションから選択できます。メタデータがわかっている場合、パラメータのドロップダウンボックスから属性名を選択できます。
範囲:
- attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性が左側のリストにあります。それらは、出力ポートに到達する選択された属性のリストである右リストにシフトできます。
範囲:
- regular_expressionこの式に名前が一致する属性が選択されます。式は、 正規表現の編集およびプレビューメニューで指定できます。このメニューは、正規表現の良いアイデアを提供します。また、異なる表現を試して結果を同時にプレビューすることもできます。
範囲:
- use_except_expression有効にすると、最初の正規表現の例外を指定できます。この例外は、 except regular expressionパラメーターによって指定されます。
範囲:
- except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の表現( 正規表現パラメーターで指定された表現 )に一致する場合でも除外されます。
範囲:
- value_typeこのオプションにより、属性のタイプを選択できます。次のタイプのいずれかを選択できます:名義、数値、整数、実数、テキスト、二項、多項式、file_path、date_time、date、time。
範囲:
- use_value_type_exception有効にすると、選択したタイプの例外を指定できます。この例外は、 except value typeパラメーターによって指定されます。
範囲:
- except_value_typeこのタイプに一致する属性は、 値タイプパラメーターで指定された前に選択されたタイプと一致した場合でも、最終出力から削除されます。ここでは、名義、数値、整数、実数、テキスト、二項、多項式、file_path、date_time、date、timeのいずれかのタイプを選択できます。
範囲:
- block_typeこのオプションにより、属性のブロックタイプを選択できます。次のタイプのいずれかを選択できます:single_value、value_series、value_series_start、value_series_end、value_matrix、value_matrix_start、value_matrix_end、value_matrix_row_start。
範囲:
- use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。この例外は、 except block typeパラメーターによって指定されます。
範囲:
- except_block_typeこのブロックタイプに一致する属性は、 ブロックタイプパラメーターによって選択された前のタイプと一致した場合でも、最終出力から削除されます。ここでは、single_value、value_series、value_series_start、value_series_end、value_matrix、value_matrix_start、value_matrix_end、value_matrix_row_startのいずれかのブロックタイプを選択できます。
範囲:
- numeric_condition数値条件フィルタータイプで使用される数値条件。すべての例がこの属性に指定された条件に一致する場合、数値属性が保持されます。たとえば、数値条件「> 6」は、すべての例で6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。指定された数値条件に関係なく、公称属性は常に保持されます。
範囲:
- include_special_attributes特別な属性は、特別な役割を持つ属性です。これらは、ID、ラベル、予測、クラスター、重量、バッチです。また、カスタムロールを属性に割り当てることができます。デフォルトでは、属性の選択演算子の条件に関係なく、すべての特別な属性が出力ポートに配信されます。このパラメーターがtrueに設定されている場合、特殊属性も属性選択演算子で指定された条件に対してテストされ、条件に一致する属性のみが選択されます。
範囲:
- invert_selectionこのパラメーターをtrueに設定すると、選択が逆になります。その場合、指定された条件に一致するすべての属性が削除され、他の属性は出力ExampleSetに残ります。特別な属性は、特別な属性を含めるパラメーターがtrueに設定されていないため、 反転選択パラメーターとは無関係に保持されます。その場合、条件は特別な属性にも適用され、このパラメーターがチェックされている場合は選択が逆になります。
範囲:
- defaultこのパラメーターは、欠損値をデフォルトでどのように置き換えるかを指定します。このデフォルトオプションは、 columnsパラメーターで指定されていないすべての属性に使用されます。
- none:欠損値はデフォルトでは置き換えられません。
- minimum:欠損値は、その属性の最小値に置き換えられます。
- maximum:欠損値は、その属性の最大値に置き換えられます。
- average:欠損値は、その属性の平均値に置き換えられます。
- zero:欠損値はゼロに置き換えられます。
- value:欠損値は、補充値パラメーターで指定された値に置き換えられます。
範囲:
- columnsこのパラメーターを使用して、異なるタイプの置換を使用して異なる属性を提供できます。 デフォルトのパラメーターで選択されたデフォルトの関数は、 columnsパラメーターで明示的に言及されていない属性に適用されます。
範囲:
- replenishment_valueデフォルトのパラメーターがvalueに設定されている場合、このパラメーターは欠損値を置き換えるために使用される値を指定します。
範囲:
チュートリアルプロセス
労働交渉データセットの欠損値を置き換える
このプロセスは、SamplesフォルダーのLabor-Negotiationsデータセットでの欠損値の置換演算子の使用法を示しています。
オペレーターは、少なくとも1つの欠損値を持つすべての属性に置換を適用するように構成されています(属性フィルタータイプはno_missing_valuesであり、反転選択はtrueです)。 columnsパラメーターでは、いくつかの属性が異なる置換方法に設定されています。
賃金-inc-1st:最小賃金-inc-2nd:最大賃金-inc-3rd:ゼロ労働時間:値
パラメーター補充値は35に設定されているため、属性労働時間のすべての欠損値は35に置き換えられます。残りの属性の欠損値は属性の平均(パラメーターのデフォルト)に置き換えられます。