Generate Aggregation
概要
この演算子は、選択された属性のすべての例で指定された集約関数を実行することにより、新しい属性を生成します。
詳細
この演算子は、属性の生成演算子と集計演算子の混合とみなすことができます。この演算子は、他のいくつかの属性の関数で構成される新しい属性を生成します。これらの「その他」の属性は、 属性フィルタータイプパラメーターおよびその他の関連パラメーターによって選択できます。集約関数は、 集約関数パラメーターを介して選択されます。カウント、最小、最大、平均、モードなど、いくつかの集計関数を使用できます。 属性名パラメーターは、新しい属性の名前を指定します。この演算子が要件に近いと思われるが、必要なものと正確に一致しない場合は、同様のタスクを実行するため、AggregateおよびGenerate Attributes演算子をご覧ください。
分化
Aggregate
この演算子は、SQLから既知の集約関数を実行します。 SQL集約関数で提供されるのと同じ形式で多くの機能を提供します。この演算子を使用して、SQL集約関数とGROUP BYおよびHAVING句を模倣できます。
Generate Attributes
既存の属性から新しい属性を生成するための非常に強力な演算子です。新しい属性を指定するための正規表現と条件ステートメントもサポートします
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。
出力
- 設定出力の例(IOObject)指定された集約関数の適用後に生成された追加属性を持つExampleSetは、このポートの出力です。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- attribute_name結果の属性の名前は、このパラメーターを介して指定されます。 範囲:文字列
- attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。必要な属性を選択するために使用する方法。次のオプションがあります。
- all:このオプションは、単にExampleSetのすべての属性を選択します。これがデフォルトのオプションです。
- single:このオプションでは、単一の属性を選択できます。このオプションを選択すると、別のパラメーター(属性)がパラメーターパネルに表示されます。
- サブセット:このオプションを使用すると、リストから複数の属性を選択できます。 ExampleSetのすべての属性がリストに存在します。必要な属性は簡単に選択できます。メタデータが不明な場合、このオプションは機能しません。このオプションを選択すると、別のパラメーターがパラメーターパネルに表示されます。
- regular_expression:このオプションを使用すると、属性選択用の正規表現を指定できます。このオプションを選択すると、他のパラメーター(正規表現、式以外の使用)がパラメーターパネルに表示されます。
- value_type:このオプションを使用すると、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。このオプションを使用して属性を選択する場合、ユーザーは型階層の基本的な理解が必要です。このオプションを選択すると、他のパラメーター(値の型、値の型の例外を使用)がパラメーターパネルに表示されます。
- block_type:このオプションは、値タイプのオプションと機能が似ています。このオプションにより、特定のブロックタイプのすべての属性を選択できます。このオプションを選択すると、他のいくつかのパラメーター(ブロックタイプ、ブロックタイプの例外を使用)がパラメーターパネルに表示されます。
- no_missing_values:このオプションは、どの例でも欠損値を含まないExampleSetのすべての属性を選択するだけです。欠損値が1つでもある属性は削除されます。
- 数値フィルター:このオプションを選択すると、パラメーターパネルに別のパラメーター(数値条件)が表示されます。例がすべて上記の数値条件を満たす数値属性がすべて選択されます。指定された数値条件に関係なく、すべての名義属性も選択されることに注意してください。
範囲:選択
- attributeこのオプションから目的の属性を選択できます。メタデータがわかっている場合は、 属性パラメーターのドロップダウンボックスから属性名を選択できます。 範囲:文字列
- attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性は左側のリストにあり、右側のリストにシフトできます。右側のリストは、名義から数値への変換が行われる選択された属性のリストです。他のすべての属性は変更されません。 範囲:文字列
- regular_expressionこの式と名前が一致する属性が選択されます。正規表現は非常に強力なツールですが、初心者には詳細な説明が必要です。正規表現の編集およびプレビューメニューから正規表現を指定することは常に有効です。このメニューは、正規表現の良いアイデアを提供します。このメニューでは、異なる表現を試して、結果を同時にプレビューすることもできます。これにより、正規表現の概念が強化されます。 範囲:文字列
- use_except_expression有効にすると、選択したタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( 値のタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この式に一致する属性は、最初の式( 正規表現パラメーターで指定された式 )に一致する場合でも除外されます。 範囲:文字列
- value_type選択する属性のタイプは、ドロップダウンリストから選択できます。次のタイプのいずれかを選択できます:名義、テキスト、二項、多項式、ファイルパス。 範囲:選択
- use_value_type_exception有効にすると、選択したタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( 値のタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_value_typeこの型に一致する属性は、前述の型、つまり値型パラメーターの値に一致した場合でも、最終出力から削除されます。ここでは、nominal、text、binominal、polynominal、file_pathのいずれかのタイプを選択できます。 範囲:選択
- block_type選択する属性のブロックタイプは、ドロップダウンリストから選択できます。ここで可能な値は「single_value」のみです。範囲:選択
- use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( ブロックタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_block_typeこのブロックタイプに一致する属性は、前述のブロックタイプに一致した場合でも、最終出力から削除されます。 範囲:選択
- numeric_condition数値属性の例をテストするための数値条件をここで指定します。たとえば、数値条件「> 6」は、すべての例ですべての名義属性と6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。 「>」、「=」、「<」の後に空白を使用します。たとえば、「<5」は機能しないため、代わりに「<5」を使用します。 範囲:文字列
- include_special_attributes特別な属性は、例を識別する特別な役割を持つ属性です。対照的に、通常の属性は単に例を示しています。特別な属性は、id、ラベル、予測、クラスター、重量、およびバッチです。 範囲:ブール
- invert_selectionこのパラメーターがtrueに設定されている場合、NOTゲートとして機能し、選択を反転します。その場合、選択された属性はすべて選択解除され、以前に選択されていなかった属性が選択されます。たとえば、このパラメーターのチェックの前に、属性「att1」が選択され、属性「att2」が選択解除されている場合。このパラメーターを確認すると、「att1」が選択解除され、「att2」が選択されます。 範囲:ブール
- Aggregation_functionこのパラメーターは、選択した属性の値を集計するための関数を指定します。平均、分散、標準偏差、カウント、最小、最大、合計、モード、中央値、積、連結など、多数のオプションを使用できます。 範囲:選択
- concatenation_separatorこのパラメーターは、連結された値の間の区切り文字を指定します。 「連結」集約機能が選択されている場合にのみ表示されます。 範囲:文字列
- keep_allこのパラメーターは、古い属性をすべて保持する必要があるかどうかを示します。このパラメーターがfalseに設定されている場合、選択されたすべての属性(つまり、集約に使用される属性)は削除されます。 範囲:ブール
- ignore_missingsこのパラメーターは、欠損値を無視するかどうか、および集計関数を既存の値にのみ適用するかどうかを示します。このパラメーターがtrueに設定されていない場合、選択された属性に欠損値がある場合、集計値は欠損値になります。 範囲:ブール
- ignore_missing_attributes通常、属性フィルターがExampleSetのどの属性とも一致しない場合、エラーが表示されます。このパラメーターがtrueに設定されている場合、その状況は無視されます。 範囲:ブール
チュートリアルプロセス
Sonarデータセットの実際の属性の平均を持つ属性を生成する
「ソナー」データセットは、検索演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには、1つの公称属性と60の実属性があることがわかります。この集合にGenerate Aggregation演算子を適用して、ExampleSetの実際の属性から新しい属性を生成します。
属性名パラメーターは「Average」に設定されているため、新しい属性の名前は「Average」になります。属性フィルタータイプパラメーターは「値タイプ」に設定され、値タイプパラメーターは「実」に設定されているため、ExampleSetの実属性から新しい属性が作成されます。集約関数パラメーターは「平均」に設定されているため、新しい属性は選択された属性の平均になります。
結果のExampleSetは、結果ワークスペースで確認できます。 ExampleSetには、attribute_1、attribute_2、…、attribute_60属性の平均値を持つ「Average」という名前の新しい属性があることがわかります。