Impute Missing Values
概要
この演算子は、欠損値について学習したモデルを適用することにより、選択した属性の欠損値の値を推定します。
詳細
これはネストされた演算子です。つまり、サブプロセスがあります。このサブプロセスは、常にExampleSetを受け入れ、モデルを返す必要があります。欠損値の代入演算子は、各属性(ラベルを除く)のモデルを学習し、それらのモデルをExampleSetに適用することにより、欠損値の値を推定します。欠損値を推定するための学習器は、この演算子のサブプロセスに配置する必要があります。内部学習者の欠損値の処理能力によっては、この演算子は場合によってはすべての欠損値を補完できない場合があることに注意してください。この動作は警告につながります。したがって、この演算子を後続の欠損値の置換演算子と組み合わせると便利な場合があります。
入力
- (IOObject)で 設定された例この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。メタデータで属性が指定されているため、入力用のデータにメタデータを添付する必要があります。 Retrieveオペレーターは、メタデータとデータを提供します。
出力
- 設定例(IOObject)ExampleSetの欠損値は、指定されたモデルによって推定された値に置き換えられ、結果のExampleSetはこのポートの出力です。
パラメーター
- attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。欠損値を置き換える属性を選択するために使用する方法。次のオプションがあります。
- all:このオプションは、単にExampleSetのすべての属性を選択します。これがデフォルトのオプションです。
- single:このオプションでは、単一の属性を選択できます。このオプションを選択すると、別のパラメーター(属性)がパラメーターパネルに表示されます。
- サブセット:このオプションを使用すると、リストから複数の属性を選択できます。 ExampleSetのすべての属性がリストに存在します。必要な属性は簡単に選択できます。メタデータが不明な場合、このオプションは機能しません。このオプションを選択すると、別のパラメーターがパラメーターパネルに表示されます。
- regular_expression:このオプションを使用すると、属性選択用の正規表現を指定できます。このオプションを選択すると、他のパラメーター(正規表現、式以外の使用)がパラメーターパネルに表示されます。
- value_type:このオプションを使用すると、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。このオプションを使用して属性を選択する場合、ユーザーは型階層の基本的な理解が必要です。このオプションを選択すると、他のパラメーター(値タイプ、値タイプの例外を使用)がパラメーターパネルに表示されます。
- block_type:このオプションは、value_typeオプションと機能が似ています。このオプションにより、特定のブロックタイプのすべての属性を選択できます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。このオプションを選択すると、他のパラメーター(ブロックタイプ、ブロックタイプの例外を使用)がパラメーターパネルに表示されます。
- no_missing_values:このオプションは、どの例でも欠損値を含まないExampleSetのすべての属性を選択するだけです。欠損値が1つでもある属性は選択されません。
- numeric_value_filter:このオプションを選択すると、別のパラメーター(数値条件)がパラメーターパネルに表示されます。すべての例が前述の数値条件を満たすすべての数値属性が選択されます。指定された数値条件に関係なく、すべての名義属性も選択されることに注意してください。
範囲:選択
- attributeこのオプションから必要な属性を選択できます。メタデータがわかっている場合、 パラメータ属性のドロップダウンボックスから属性名を選択できます。 範囲:文字列
- attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性は左側のリストにあり、選択した属性のリストである右側のリストに移動できます。 範囲:文字列
- regular_expressionこの式に名前が一致する属性が選択されます。正規表現は非常に強力なツールですが、初心者には詳細な説明が必要です。正規表現の編集およびプレビューメニューから正規表現を指定することは常に有効です。このメニューは、正規表現の良いアイデアを提供します。また、異なる式を試して結果を同時にプレビューすることもできます。これにより、正規表現の概念が強化されます。 範囲:文字列
- use_except_expression有効にすると、最初の正規表現の例外を指定できます。このオプションを選択すると、別のパラメーター(正規表現を除く)がパラメーターパネルに表示されます。 範囲:ブール
- except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の表現( 正規表現パラメーターで指定された表現 )に一致する場合でも除外されます。 範囲:文字列
- value_type選択する属性のタイプは、ドロップダウンリストから選択できます。 範囲:選択
- use_value_type_exception有効にすると、選択したタイプの例外を指定できます。このオプションを選択すると、別のパラメーター(値タイプを除く)がパラメーターパネルに表示されます。 範囲:ブール
- except_value_typeこのタイプに一致する属性は、前述のタイプ、つまりvalue typeパラメーターの値に一致した場合でも、最終出力から削除されます。 範囲:選択
- block_type選択する属性のブロックタイプは、ドロップダウンリストから選択できます。 範囲:選択
- use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。このオプションを選択すると、別のパラメーター(ブロックタイプを除く)がパラメーターパネルに表示されます。 範囲:ブール
- except_block_typeこのブロックタイプに一致する属性は、前述のブロックタイプに一致した場合でも、最終出力から削除されます。 範囲:選択
- numeric_condition数値属性の例をテストするための数値条件は、ここに記載されています。たとえば、数値条件「> 6」は、すべての例ですべての名義属性と6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。 「>」、「=」、「<」の後に空白を使用します。たとえば、「<5」は機能しないため、代わりに「<5」を使用します。 範囲:文字列
- invert_selectionこのパラメーターがtrueに設定されている場合、NOTゲートとして機能し、選択を反転します。その場合、選択された属性はすべて選択解除され、以前に選択されていなかった属性が選択されます。たとえば、属性「att1」が選択され、属性「att2」がこのパラメーターの選択前に削除された場合。このパラメーターを選択すると、「att1」が削除され、「att2」が選択されます。 範囲:ブール
- include_special_attributes特別な属性は、例を識別する特別な役割を持つ属性です。対照的に、通常の属性は単に例を示しています。特別な属性は、id、ラベル、予測、クラスター、重量、およびバッチです。デフォルトでは、属性の選択演算子の条件に関係なく、すべての特別な属性が出力ポートに配信されます。このパラメーターがtrueに設定されている場合、特殊属性は、属性の選択演算子で指定された条件に対してもテストされ、条件を満たす属性のみが選択されます。 範囲:ブール
- iterate欠損値をすぐに(対応する概念を学習した後)補完し、その後反復する場合は、このパラメーターをtrueに設定します。 範囲:ブール
- learn_on_complete_casesこのパラメーターがtrueに設定されている場合、完全なケースに基づいてのみ欠損値を推定するための概念が学習されます。このオプションは、内部学習アプローチが欠損値を処理できない場合に使用する必要があります。 範囲:ブール
- orderこのパラメーターは、欠損値を推定する属性の順序を指定します。 範囲:選択
- sortこのパラメーターは、オーダー戦略で使用されるソート方向を指定します。 範囲:選択
- use_local_random_seedこのパラメーターは、ランダム化にローカルランダムシードを使用する必要があるかどうかを示します。 ローカルランダムシードの同じ値を使用すると、同じランダム化が生成されます。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
チュートリアルプロセス
K-NNスキームを使用して欠損値を推定する
「Labor-Negotiations」データセットは、Retrieveオペレーターを使用してロードされます。 ExampleSetを表示できるように、ブレークポイントがここに挿入されます。このExampleSetには多くの欠損値があることがわかります。欠損値の推定演算子は、欠損値を推定するためにこのExampleSetに適用されます。この演算子のサブプロセスをご覧ください。欠損値の推定にはK-NN演算子が適用されます。属性フィルタータイプパラメーターは「all」に設定されているため、すべての属性の欠損値はK-NNスキームを使用して推定されます。すべてのパラメーターはデフォルト値で使用されます。結果のExampleSetは、結果ワークスペースで確認できます。 K-NNスキームを使用して推定されているため、このExampleSetには欠損値がないことがわかります。