Work on Subset
概要
この演算子は、入力ExampleSetのサブセット(1つ以上の属性)を選択し、選択したサブセットのサブプロセスに演算子を適用します。
詳細
サブセットの作業演算子は、属性の選択演算子とサブプロセス演算子のある程度の組み合わせと考えることができます。属性は、属性の選択演算子で選択したのと同じ方法で選択され、この演算子のサブプロセスは、サブプロセス演算子と同じように機能します。サブプロセスは、すべての演算子と演算子の組み合わせをサブプロセスに適用できるプロセスの小さな単位と考えることができます。そのため、サブプロセスは、後で適用される演算子のチェーンとして定義することもできます。サブプロセスの詳細については、サブプロセス演算子をご覧ください。ただし、Work on Subset演算子はSelect AttributesおよびSubprocess演算子と類似していますが、この演算子はSelect AttributesおよびSubprocess演算子の組み合わせでは実行できない機能を提供します。最も重要なことは、この演算子は、サブプロセスの結果を入力ExampleSetにマージして、サブプロセス内のサブセットの処理後に受信したサブセットで元のサブセットが上書きされるようにすることができます。このマージは、 サブセットのみを保持するパラメーターによって制御できます。このパラメーターはデフォルトでfalseに設定されています。したがって、マージはデフォルトで行われます。このパラメーターがtrueに設定されている場合、サブプロセスの結果のみがこの演算子によって返され、マージは行われません。このような場合、この演算子は、属性とサブプロセスの選択演算子の組み合わせと非常によく似た動作をします。これは、添付のサンプルプロセスを調べることで簡単に理解できます。
この演算子は、必要に応じてサブプロセスの追加結果を提供することもできます。これは、 deliver inner resultsパラメーターによって制御できます。これは非常に強力な演算子であることに注意してください。他の前処理演算子と組み合わせて、新しい前処理スキームを作成するために使用できます。ただし、2つの主要な制限があります。
- サブプロセスの結果は入力ExampleSetの残りの部分と結合されるため、サブプロセス内でサンプルの数を変更することはできません。
- 属性の役割の変更は、サブプロセスの外部に配信されません。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。
出力
- サンプルセット(IOObject)サブプロセスの結果は、残りの入力ExampleSetと結合され、このポートを介して配信されます。ただし、サブセットのみを保持するパラメーターがtrueに設定されている場合、サブプロセスの結果のみが配信されます。
- を通してこの演算子は、必要に応じてサブプロセスの追加結果を提供することもできます。これは、deliver inner resultsパラメーターによって制御できます。このポートは、サブプロセスの追加結果を配信するために使用されます。Workon Subsetオペレーターは、複数のスルーポートを持つことができます。 1つのスルーポートが接続されると、別のスルーポートが使用可能になり、別の出力(ある場合)を配信する準備が整います。出力の順序は同じままです。 Work on Subsetオペレーターのサブプロセス内の最初のスルーポートで渡されたオブジェクトは、オペレーターの最初のスルーポートで配信されます。
パラメーター
- attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。属性の選択に使用する方法。次のオプションがあります。
- all:このオプションは、単にExampleSetのすべての属性を選択します。これがデフォルトのオプションです。
- single:このオプションでは、単一の属性を選択できます。このオプションを選択すると、別のパラメーター(属性)がパラメーターパネルに表示されます。
- サブセット:このオプションを使用すると、リストから複数の属性を選択できます。 ExampleSetのすべての属性がリストに存在します。必要な属性は簡単に選択できます。メタデータが不明な場合、このオプションは機能しません。このオプションを選択すると、別のパラメーターがパラメーターパネルに表示されます。
- regular_expression:このオプションを使用すると、属性選択用の正規表現を指定できます。このオプションを選択すると、他のパラメーター(正規表現、式以外の使用)がパラメーターパネルに表示されます。
- value_type:このオプションを使用すると、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。このオプションを使用して属性を選択する場合、ユーザーは型階層の基本的な理解が必要です。このオプションを選択すると、他のパラメーター(値の型、値の型の例外を使用)がパラメーターパネルに表示されます。
- block_type:このオプションは、value_typeオプションと同様に機能します。このオプションにより、特定のブロックタイプのすべての属性を選択できます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。このオプションを選択すると、他のいくつかのパラメーター(ブロックタイプ、ブロックタイプの例外を使用)がパラメーターパネルに表示されます。
- no_missing_values:このオプションは、どの例でも欠損値を含まないExampleSetのすべての属性を選択するだけです。欠損値が1つでもある属性は削除されます。
- 数値フィルター:このオプションを選択すると、パラメーターパネルに別のパラメーター(数値条件)が表示されます。すべての例が前述の数値条件を満たすすべての数値属性が選択されます。指定された数値条件に関係なく、すべての名義属性も選択されることに注意してください。
範囲:選択
- attributeこのオプションから必要な属性を選択できます。メタデータがわかっている場合、 パラメータ属性のドロップダウンボックスから属性名を選択できます。 範囲:文字列
- attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性は左側のリストにあり、右側のリスト(選択した属性のリスト)に移動できます。 範囲:文字列
- regular_expressionこの式に名前が一致する属性が選択されます。正規表現は非常に強力なツールですが、初心者には詳細な説明が必要です。正規表現の編集およびプレビューメニューから正規表現を指定することは常に有効です。このメニューは、正規表現の良いアイデアを提供します。また、異なる表現を試して結果を同時にプレビューすることもできます。 範囲:文字列
- use_except_expression有効にすると、最初の正規表現の例外を指定できます。このオプションを選択すると、別のパラメーター(正規表現を除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の正規表現( 正規表現パラメーターで指定された正規表現 )に一致する場合でも除外されます。 範囲:文字列
- value_type選択する属性のタイプは、ドロップダウンリストから選択できます。 範囲:選択
- use_value_type_exception有効にすると、選択したタイプの例外を指定できます。このオプションを有効にすると、別のパラメーター( 値タイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_value_typeこの型に一致する属性は、前述の型、つまり値型パラメーターの値に一致しても選択されません。 範囲:選択
- block_type選択する属性のブロックタイプは、ドロップダウンリストから選択できます。 範囲:選択
- use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( ブロックタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_block_typeこのブロックタイプに一致する属性は、前述のブロックタイプ、つまりブロックタイプパラメータの値に一致しても選択されません。 範囲:選択
- numeric_condition数値属性の例をテストするための数値条件をここで指定します。たとえば、数値条件「> 6」は、すべての例ですべての名義属性と6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。 「>」、「=」、「<」の後に空白を使用します。たとえば、「<5」は機能しないため、代わりに「<5」を使用します。 範囲:文字列
- include_special_attributes特別な属性は、特別な役割を持つ属性です。特別な属性は、例を識別する属性です。対照的に、通常の属性は単に例を示しています。特別な属性は、id、ラベル、予測、クラスター、重量、およびバッチです。デフォルトでは、属性の選択演算子の条件に関係なく、すべての特別な属性が選択されます。このパラメーターがtrueに設定されている場合、特殊属性は属性の選択演算子で指定された条件に対してもテストされ、条件を満たす属性のみが選択されます。 範囲:ブール
- invert_selectionこのパラメーターがtrueに設定されている場合、NOTゲートとして機能し、選択を反転します。その場合、選択された属性はすべて選択解除され、以前に選択されていなかった属性が選択されます。たとえば、このパラメーターのチェックの前に、属性「att1」が選択され、属性「att2」が選択解除されている場合。このパラメーターを確認すると、「att1」が選択解除され、「att2」が選択されます。 範囲:ブール
- name_conflict_handlingこのパラメーターは、オペレーターがサブセットをExampleSetにマージするときに、名前との競合を処理する方法を決定します。 3つの可能な動作があります。
- エラー:競合がある場合、オペレーターはエラーを表示します。
- 新規保持:競合がある場合、オペレーターはサブセットから1つを保持します。もう1つは削除されます。
- オリジナルを保持:競合がある場合、オペレーターはサブセットにないものを保持します。もう1つは削除されます。
範囲:選択
- role_conflict_handlingこのパラメーターは、オペレーターがサブセットをExampleSetにマージして戻すときに、ロールとの競合を処理する方法を決定します。 3つの可能な動作があります。
- エラー:競合がある場合、オペレーターはエラーを表示します。
- 新規保持:競合がある場合、オペレーターはサブセットから1つを保持します。もう1つは削除されます。
- オリジナルを保持:競合がある場合、オペレーターはサブセットにないものを保持します。もう1つは削除されます。
範囲:選択
- keep_subset_only Work on Subsetオペレーターは、サブプロセスの結果を入力ExampleSetとマージして、サブプロセス内のサブセットの処理後に受信したサブセットによって元のサブセットが上書きされるようにすることができます。このマージは、 サブセットのみを保持するパラメーターによって制御できます。このパラメーターはデフォルトでfalseに設定されています。したがって、マージはデフォルトで行われます。このパラメーターがtrueに設定されている場合、サブプロセスの結果のみがこの演算子によって返され、マージは行われません。 範囲:ブール
- deliver_inner_resultsこのパラメーターは、サブプロセスの追加の結果(入力ExampleSet以外)も返す必要があるかどうかを示します。このパラメーターがtrueに設定されている場合、追加の結果はスルーポートを介して配信されます。 範囲:ブール
- remove_rolesこのパラメーターは、サブセットを入力することにより、サブセット内の特殊属性の役割を削除するかどうかを決定します。 範囲:ブール
チュートリアルプロセス
Golfデータセットのサブセットでの作業
「ゴルフ」データセットは、検索演算子を使用してロードされます。次に、サブセットの作業演算子が適用されます。属性フィルタータイプパラメーターはサブセットに設定されます。属性パラメーターは、「温度」属性と「湿度」属性を選択するために使用されます。 「サブセットの作業」演算子をダブルクリックして、そのサブプロセスを表示します。サブプロセスのすべての操作は、選択された属性、つまり「温度」属性と「湿度」属性でのみ実行されます。 Normalize演算子はサブプロセスで適用されます。 Normalizeオペレーターの属性フィルタータイプパラメーターは「all」に設定されます。 Normalize演算子は、入力ExampleSetの「すべて」の属性には適用されず、入力ExampleSetの「すべて」の選択された属性、つまり「Temperature」および「Humidity」属性に適用されることに注意してください。プロセスを実行します。正規化された「湿度」および「温度」属性が、残りの入力ExampleSetと組み合わされていることがわかります。ここで、サブセットのみを保持するパラメーターをtrueに設定し、プロセスを再度実行します。これで、サブプロセスの結果のみがサブセットの作業演算子によって配信されることがわかります。このプロセス例では、この演算子の基本的な使用法を説明しています。この演算子は、他の前処理演算子と組み合わせて、新しい前処理スキームを作成するために使用できます。