Discretize by Binning
概要
この演算子は、選択された数値属性をユーザー指定のビンに離散化します。等しい範囲のビンが自動的に生成されます。異なるビンの値の数は異なる場合があります。
詳細
この演算子は、選択された数値属性を名義属性に離散化します。 ビン数パラメーターは、必要なビン数を指定するために使用されます。この離散化は、単純なビニングによって実行されます。数値の範囲は、同じサイズのセグメントに分割されます。各セグメントはビンを表します。数値は、数値をカバーするセグメントを表すビンに割り当てられます。各範囲には自動的に名前が付けられます。範囲の命名形式は、 範囲名のタイプパラメーターを使用して変更できます。ビンの範囲に入る値は、その範囲の名前に従って名前が付けられます。この演算子を使用すると、値の範囲にのみビニングを適用することもできます。これは、 境界の定義パラメーターを使用して有効にできます。 最小値と最大値のパラメーターは、範囲の境界を定義するために使用されます。 最小値パラメーターより小さい値がある場合、それらの個別の範囲が作成されます。同様に、 最大値パラメーターよりも大きい値がある場合、それらの値に対して個別の範囲が作成されます。次に、ビニングによる離散化は、指定された境界内にある値に対してのみ実行されます。
分化
Discretize by Frequency
周波数による離散化演算子は、すべてのビンの一意の値の数が(ほぼ)等しくなるようにビンを作成します。
Discretize by Size
サイズによる離散化演算子は、各ビンがユーザー指定のサイズ(例の数)を持つようにビンを作成します。
Discretize by Entropy
離散化は、誘導されたパーティションでエントロピーが最小になるようにビン境界を選択することにより実行されます。
Discretize by User Specification
この演算子は、選択された数値属性をユーザー指定のクラスに離散化します。
入力
- サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。メタデータで属性が指定されているため、入力用のデータにメタデータを添付する必要があります。 Retrieveオペレーターは、データとともにメタデータを提供します。入力ExampleSetには少なくとも1つの数値属性が必要です。そうでない場合、この演算子を使用しても意味がありません。
出力
- サンプルセット(IOObject)選択された数値属性は、ビニングによって名義属性に変換され、結果のExampleSetがこのポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
- 前処理モデルこのポートは、現在のプロセスにおけるこのオペレーターのパラメーターに関する情報を含む前処理モデルを提供します。
パラメーター
- create_view基礎となるデータを変更する代わりに、ビューを作成することが可能です。このパラメータを選択して、このオプションを有効にします。通常、データに対して直接実行される変換は、値が要求されるたびに計算され、データを変更せずに結果が返されます。 範囲:ブール
- attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。属性の選択に使用する方法。次のオプションがあります。
- all:このオプションは、単にExampleSetのすべての属性を選択します。これがデフォルトのオプションです。
- single:このオプションでは、単一の属性を選択できます。このオプションを選択すると、別のパラメーター(属性)がパラメーターパネルに表示されます。
- サブセット:このオプションを使用すると、リストから複数の属性を選択できます。 ExampleSetのすべての属性がリストに存在します。必要な属性は簡単に選択できます。メタデータが不明な場合、このオプションは機能しません。このオプションを選択すると、別のパラメーターがパラメーターパネルに表示されます。
- regular_expression:このオプションを使用すると、属性選択用の正規表現を指定できます。このオプションを選択すると、他のパラメーター(正規表現、式以外の使用)がパラメーターパネルに表示されます。
- value_type:このオプションを使用すると、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。このオプションを使用して属性を選択する場合、ユーザーは型階層の基本的な理解が必要です。このオプションを選択すると、他のパラメーター(値の型、値の型の例外を使用)がパラメーターパネルに表示されます。
- block_type:このオプションは、value_typeオプションと同様に機能します。このオプションにより、特定のブロックタイプのすべての属性を選択できます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。このオプションを選択すると、他のいくつかのパラメーター(ブロックタイプ、ブロックタイプの例外を使用)がパラメーターパネルに表示されます。
- no_missing_values:このオプションは、どの例でも欠損値を含まないExampleSetのすべての属性を選択するだけです。欠損値が1つでもある属性は削除されます。
- 数値フィルター:このオプションを選択すると、パラメーターパネルに別のパラメーター(数値条件)が表示されます。例がすべて上記の数値条件を満たす数値属性がすべて選択されます。指定された数値条件に関係なく、すべての名義属性も選択されることに注意してください。
範囲:選択
- attributeこのオプションから必要な属性を選択できます。メタデータがわかっている場合、 パラメータ属性のドロップダウンボックスから属性名を選択できます。 範囲:文字列
- attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性は左側のリストにあり、右側のリスト(選択した属性のリスト)に移動できます。 範囲:文字列
- regular_expressionこの式に名前が一致する属性が選択されます。正規表現は非常に強力なツールですが、初心者には詳細な説明が必要です。正規表現の編集およびプレビューメニューから正規表現を指定することは常に有効です。このメニューは、正規表現の良いアイデアを提供します。また、異なる表現を試して結果を同時にプレビューすることもできます。 範囲:文字列
- use_except_expression有効にすると、最初の正規表現の例外を指定できます。このオプションを選択すると、別のパラメーター(正規表現を除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の正規表現( 正規表現パラメーターで指定された正規表現 )に一致する場合でも除外されます。 範囲:文字列
- value_type選択する属性のタイプは、ドロップダウンリストから選択できます。 範囲:選択
- use_value_type_exception有効にすると、選択したタイプの例外を指定できます。このオプションを有効にすると、別のパラメーター( 値タイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_value_typeこの型に一致する属性は、前述の型、つまり値型パラメーターの値に一致しても選択されません。 範囲:選択
- block_type選択する属性のブロックタイプは、ドロップダウンリストから選択できます。 範囲:選択
- use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( ブロックタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
- except_block_typeこのブロックタイプに一致する属性は、前述のブロックタイプ、つまりブロックタイプパラメータの値に一致しても選択されません。 範囲:選択
- numeric_condition数値属性の例をテストするための数値条件をここで指定します。たとえば、数値条件「> 6」は、すべての例ですべての名義属性と6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。 「>」、「=」、「<」の後に空白を使用します。たとえば、「<5」は機能しないため、代わりに「<5」を使用します。 範囲:文字列
- include_special_attributes特別な属性は、例を識別する特別な役割を持つ属性です。対照的に、通常の属性は単に例を示しています。特別な属性は、id、ラベル、予測、クラスター、重量、およびバッチです。デフォルトでは、属性の選択演算子の条件に関係なく、すべての特別な属性が選択されます。このパラメーターがtrueに設定されている場合、特殊属性は、属性の選択演算子で指定された条件に対してもテストされ、条件を満たす属性のみが選択されます。 範囲:ブール
- invert_selectionこのパラメーターがtrueに設定されている場合、NOTゲートとして機能し、選択を反転します。その場合、選択された属性はすべて選択解除され、以前に選択されていなかった属性が選択されます。たとえば、属性「att1」が選択され、このパラメーターのチェック前に属性「att2」が選択されていない場合。このパラメーターを確認すると、「att1」が選択解除され、「att2」が選択されます。 範囲:ブール
- number_of_binsこのパラメーターは、各属性に使用されるビンの数を指定します。 範囲:整数
- define_boundaries:ビニングによる離散化演算子を使用すると、値の範囲にのみビニングを適用できます。これは、 境界の定義パラメーターを使用して有効にできます。これがtrueに設定されている場合、ビニングによる離散化は、指定された境界内にある値に対してのみ実行されます。境界の下限と上限は、それぞれ最小値と最大値のパラメーターで指定されます。 範囲:ブール
- min_valueこのパラメーターは、 境界の定義パラメーターがtrueに設定されている場合にのみ使用できます。ビニング範囲の下限値を指定するために使用されます。 範囲:実数
- max_valueこのパラメーターは、 境界の定義パラメーターがtrueに設定されている場合にのみ使用できます。ビニング範囲の上限値を指定するために使用されます。 範囲:実数
- range_name_typeこのパラメーターは、範囲の命名形式を変更するために使用されます。 「long」、「short」、および「interval」形式が利用可能です。 範囲:選択
- automatic_number_of_digitsこれはエキスパートパラメータです。 範囲名タイプパラメータが「間隔」に設定されている場合にのみ使用できます。範囲名の桁数を自動的に決定する必要があるかどうかを示します。 範囲:ブール
- number_of_digitsこれはエキスパートパラメータです。間隔名に使用される最小桁数を指定するために使用されます。 範囲:整数
チュートリアルプロセス
ビニングによる「ゴルフ」データセットの数値属性の離散化
このサンプルプロセスの焦点は、ビニング手順です。属性の選択に関連するパラメーターを理解するには、属性の選択演算子のプロセス例について調べてください。
「ゴルフ」データセットは、検索演算子を使用してロードされます。 [ビン化による離散化]演算子が適用されます。 「温度」および「湿度」属性が離散化のために選択されます。ビンの数パラメーターは2に設定されます。境界の定義パラメーターはtrueに設定されます。最小値と最大値のパラメーターは、それぞれ70と80に設定されます。したがって、ビニングは70〜80の範囲でのみ実行されます。ビン数パラメーターが2に設定されているため、範囲は2つの等しいセグメントに分割されます。およそ、範囲の最初のセグメントは70〜75で、範囲の2番目のセグメントは76〜80です。これらは正確な値ではありませんが、このプロセスの説明には十分です。最小値パラメーターより小さい、つまり70より小さいすべての値に個別の範囲があります。この範囲は自動的に「range1」という名前になります。ビニング範囲の最初と2番目のセグメントには、それぞれ「range2」と「range3」という名前が付けられます。最大値パラメーターよりも大きい、つまり80より大きいすべての値には、個別の範囲があります。この範囲は、自動的に「range4」という名前になります。プロセスを実行し、元のデータセットと離散化されたデータセットを比較します。元のデータセットの70以下の値には、離散化されたデータセットの「range1」という名前が付けられていることがわかります。元のデータセットの70より大きく75以下の値は、離散化されたデータセットでは「range2」と命名されます。元のデータセットの75より大きく80以下の値は、離散化されたデータセットでは「range3」という名前になります。元のデータセットの80より大きい値は、離散化されたデータセットでは「range4」という名前になります。