Discretize by Entropy

概要

この演算子は、選択された数値属性を名義属性に変換します。誘導されたパーティションでエントロピーが最小化されるように、ビンの境界が選択されます。

詳細

この演算子は、選択された数値属性を名義属性に離散化します。離散化は、誘導されたパーティションのエントロピーを最小化するビン境界を選択することにより実行されます。各ビン範囲には自動的に名前が付けられます。範囲の名前付け形式は、 範囲名タイプパラメーターを使用して変更できます。ビンの範囲に入る値は、その範囲の名前に従って名前が付けられます。

離散化は、誘導されたパーティションのエントロピーを最小化するビン境界を選択することにより実行されます。このメソッドは、停止基準に達するまで、両方の新しいパーティションに再帰的に適用されます。詳細については、以下をご覧ください。

分類学習のための連続値属性の複数区間離散化（Fayyad、イラン）
教師ありおよび教師なし離散化（Dougherty、Kohavi、Sahami）。

この演算子は、1つの範囲のみを持つすべての属性、つまりエントロピー基準が満たされていないため実際に離散化されていない属性を自動的に削除できます。この動作は、 remove uselessパラメーターによって制御できます。

分化

Discretize by Binning

ビニングによる離散化演算子は、すべてのビンの範囲が（ほぼ）等しくなるようにビンを作成します。

Discretize by Frequency

周波数による離散化演算子は、すべてのビンの一意の値の数が（ほぼ）等しくなるようにビンを作成します。

Discretize by Size

サイズによる離散化演算子は、各ビンがユーザー指定のサイズ（例の数）を持つようにビンを作成します。

Discretize by User Specification

この演算子は、選択された数値属性をユーザー指定のクラスに離散化します。

入力

サンプル入力（IOObject）この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。入力ExampleSetには少なくとも1つの数値属性が必要です。そうでない場合、この演算子を使用しても意味がありません。

出力

設定出力の例（IOObject）選択された数値属性は、離散化によって名義属性に変換され、結果のExampleSetがこのポートを介して配信されます。
オリジナル（IOObject）入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
前処理モデル（前処理モデル）このポートは、現在のプロセスにおけるこのオペレーターのパラメーターに関する情報を含む前処理モデルを提供します。

パラメーター

create_view基礎となるデータを変更する代わりに、ビューを作成することが可能です。このパラメータを選択して、このオプションを有効にします。通常、データに対して直接実行される変換は、値が要求されるたびに計算され、データを変更せずに結果が返されます。範囲：ブール
attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。必要な属性を選択するために使用する方法。次のオプションがあります。
- all：このオプションは、単にExampleSetのすべての属性を選択します。これがデフォルトのオプションです。
- single：このオプションでは、単一の属性を選択できます。このオプションを選択すると、別のパラメーター（属性）がパラメーターパネルに表示されます。
- サブセット：このオプションを使用すると、リストから複数の属性を選択できます。 ExampleSetのすべての属性がリストに存在します。必要な属性は簡単に選択できます。メタデータが不明な場合、このオプションは機能しません。このオプションを選択すると、別のパラメーターがパラメーターパネルに表示されます。
- regular_expression：このオプションを使用すると、属性選択用の正規表現を指定できます。このオプションを選択すると、他のパラメーター（正規表現、式以外の使用）がパラメーターパネルに表示されます。
- value_type：このオプションを使用すると、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。このオプションを使用して属性を選択する場合、ユーザーはタイプ階層の基本を理解している必要があります。このオプションを選択すると、他のパラメーター（値の型、値の型の例外を使用）がパラメーターパネルに表示されます。
- block_type：このオプションは、値タイプのオプションと機能が似ています。このオプションにより、特定のブロックタイプのすべての属性を選択できます。このオプションを選択すると、他のいくつかのパラメーター（ブロックタイプ、ブロックタイプの例外を使用）がパラメーターパネルに表示されます。
- no_missing_values：このオプションは、どの例でも欠損値を含まないExampleSetのすべての属性を選択するだけです。欠損値が1つでもある属性は削除されます。
- 数値フィルター：このオプションを選択すると、パラメーターパネルに別のパラメーター（数値条件）が表示されます。例がすべて上記の数値条件を満たす数値属性がすべて選択されます。指定された数値条件に関係なく、すべての名義属性も選択されることに注意してください。
範囲：選択
attributeこのオプションから目的の属性を選択できます。メタデータがわかっている場合は、属性パラメーターのドロップダウンボックスから属性名を選択できます。範囲：文字列
attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性は左側のリストに存在し、右側のリストにシフトできます。右側のリストは、名義から数値への変換が行われる選択された属性のリストです。他のすべての属性は変更されません。範囲：文字列
regular_expressionこの式と名前が一致する属性が選択されます。正規表現は非常に強力なツールですが、初心者には詳細な説明が必要です。正規表現の編集およびプレビューメニューから正規表現を指定することは常に有効です。このメニューは、正規表現の良いアイデアを提供します。このメニューでは、異なる表現を試して、結果を同時にプレビューすることもできます。これにより、正規表現の概念が強化されます。範囲：文字列
use_except_expression有効にすると、選択したタイプの例外を指定できます。このオプションを選択すると、別のパラメーター（ 値のタイプを除く ）がパラメーターパネルに表示されます。範囲：ブール
except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この式に一致する属性は、最初の式（ 正規表現パラメーターで指定された式）に一致する場合でも除外されます。範囲：文字列
value_type選択する属性のタイプは、ドロップダウンリストから選択できます。次のタイプのいずれかを選択できます：名義、テキスト、二項、多項式、ファイルパス。範囲：選択
use_value_type_exception有効にすると、選択したタイプの例外を指定できます。このオプションを選択すると、別のパラメーター（ 値のタイプを除く ）がパラメーターパネルに表示されます。範囲：ブール
except_value_typeこの型に一致する属性は、前述の型、つまり値型パラメーターの値に一致した場合でも、最終出力から削除されます。ここでは、nominal、text、binominal、polynominal、file_pathのいずれかのタイプを選択できます。範囲：選択
block_type選択する属性のブロックタイプは、ドロップダウンリストから選択できます。ここで可能な値は「single_value」のみです。範囲：選択
use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。このオプションを選択すると、別のパラメーター（ ブロックタイプを除く ）がパラメーターパネルに表示されます。範囲：ブール
except_block_typeこのブロックタイプに一致する属性は、前述のブロックタイプに一致した場合でも、最終出力から削除されます。範囲：選択
numeric_condition数値属性の例をテストするための数値条件をここで指定します。たとえば、数値条件「> 6」は、すべての例ですべての名義属性と6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です： ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘（> 0 && <2）のような条件|| （> 10 && <12） ‘は、&&と||の両方を使用するため許可されません。「>」、「=」、「<」の後に空白を使用します。たとえば、「<5」は機能しないため、代わりに「<5」を使用します。範囲：文字列
include_special_attributes特別な属性は、例を識別する特別な役割を持つ属性です。対照的に、通常の属性は単に例を示しています。特別な属性は、id、ラベル、予測、クラスター、重量、およびバッチです。範囲：ブール
invert_selectionこのパラメーターがtrueに設定されている場合、NOTゲートとして機能し、選択を反転します。その場合、選択された属性はすべて選択解除され、以前に選択されていなかった属性が選択されます。たとえば、属性「att1」が選択され、このパラメーターのチェック前に属性「att2」が選択されていない場合。このパラメーターを確認すると、「att1」が選択解除され、「att2」が選択されます。範囲：ブール
remove_uselessこのパラメータは、役に立たない属性、つまり単一の範囲のみを含む属性を削除する必要があるかどうかを示します。このパラメーターがtrueに設定されている場合、エントロピー基準が満たされていないため実際に離散化されていない属性はすべて削除されます。範囲：ブール
range_name_typeこのパラメーターは、範囲の命名形式を変更するために使用されます。「long」、「short」、および「interval」形式が利用可能です。範囲：選択
automatic_number_of_digitsこれはエキスパートパラメータです。 範囲名タイプパラメータが「間隔」に設定されている場合にのみ使用できます。範囲名の桁数を自動的に決定する必要があるかどうかを示します。範囲：ブール
number_of_digitsこれはエキスパートパラメータです。間隔名に使用される最小桁数を指定するために使用されます。範囲：整数

チュートリアルプロセス

エントロピーによる「ソナー」データセットの離散化

このプロセス例の焦点は、離散化手順です。属性の選択に関連するパラメーターを理解するには、属性の選択演算子のプロセス例について調べてください。

「ソナー」データセットは、検索演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。このデータセットには60個の通常の属性（すべて実型）があることがわかります。エントロピーによる離散化演算子が適用されます。属性フィルタータイプパラメーターは ‘all’に設定されているため、すべての数値属性が離散化されます。removeuselessパラメーターはtrueに設定されているため、1つの範囲のみを持つ属性がExampleSetから削除されます。プロセスを実行し、結果ワークスペースに切り替えます。「ソナー」データセットが22個の通常の属性に削減されていることがわかります。これらの数値属性は、名目上の属性に離散化されています。