Remove Useless Attributes
概要
この演算子は、ExampleSetから不要な属性を削除します。役に立たない属性のしきい値は、ユーザーが指定します。
詳細
役に立たない属性の削除演算子は、次の4種類の役に立たない属性を削除します。比率は、 上記の公称の役に立たないパラメーターによって指定されます。この比率は、最も頻度の高い属性値を持つサンプルの数をサンプルの総数で割ったものとして定義されます。このプロパティは、1つの値が他のすべての値を支配するような名目上の属性を削除するために使用できます。最も頻繁な値がすべての例の指定された比率未満に含まれるような名目上の属性。この比率は、 名目上の役に立たないパラメーターによって指定されます。この比率は、最も頻度の高い属性値を持つサンプルの数をサンプルの総数で割ったものとして定義されます。このプロパティは、使用可能な値が多すぎる公称属性を削除するために使用できます。標準偏差が所定の偏差しきい値以下であるような数値属性。 数値の最小偏差パラメーターは、偏差のしきい値を指定します。標準偏差は、値がどのように広がっているかの尺度です。標準偏差は分散の平方根であり、平均との差の二乗の平均として定義されます。すべての例の値が一意であるような名目上の属性。このプロパティを使用して、idに似た属性を削除できます。これはインテリジェントな演算子ではないことに注意してください。つまり、属性が役に立たないかどうかを判断することはできません。ユーザーによって定義された無用の基準を満たす属性を単に削除します。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のFilter Examples演算子の出力です。他の演算子の出力も入力として使用できます。
出力
- 設定出力の例(IOObject)役に立たない属性のユーザー定義の基準を満たす属性はExampleSetから削除され、このExampleSetはこの出力ポートを介して配信されます。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- numeric_min_deviation 数値最小偏差パラメータは、偏差しきい値を指定します。標準偏差がこの偏差しきい値以下の数値属性は、入力ExampleSetから削除されます。標準偏差は、値がどのように広がっているかの尺度です。標準偏差は分散の平方根であり、平均との差の二乗の平均として定義されます。 範囲:実数
- nominal_useless_above上記の名目上の役に立たないパラメーターは、例の総数に対する最も頻度の高い値を持つ例の数の比率を指定します。例の総数に対する最も頻度の高い値を持つ例の数の比率がこの比率を超えるような名目上の属性は、入力ExampleSetから削除されます。このプロパティを使用して、1つの値が他のすべての値を支配するような名目上の属性を削除できます。 範囲:実数
- nominal_remove_id_likeこのパラメーターがtrueに設定されている場合、すべての例の値が一意であるような名義属性はすべて、入力ExampleSetから削除されます。このプロパティを使用して、idに似た属性を削除できます。 範囲:ブール
- nominal_useless_below名目上の役に立たないパラメーターは、例の総数に対する最も頻度の高い値を持つ例の数の比率を指定します。例の総数に対する最も頻度の高い値を持つ例の数の比率がこの比率よりも小さいような名目上の属性は、入力ExampleSetから削除されます。このプロパティを使用して、考えられる値が多すぎる公称属性を削除できます。 範囲:実数
チュートリアルプロセス
ExampleSetから役に立たない名目上の属性を削除する
このプロセス例では、上記の名目上の役に立たないおよび名目上の役に立たないパラメーターを使用して、役に立たない名目属性を削除する方法を説明します。役に立たない属性の削除演算子は、役に立たない属性のユーザー定義の基準を満たす属性を削除することに注意してください。
「ゴルフ」データセットは、検索演算子を使用してロードされます。 Filter Examples演算子がそれに適用され、最初の10個の例をフィルタリングします。これは、このプロセスを理解するための計算を単純化するために行われます。フィルタの例演算子の後にブレークポイントが挿入されるため、不要な属性の削除演算子を適用する前にExampleSetを確認できます。 ExampleSetには10個の例があることがわかります。 「Outlook」と「Wind」という2つの通常の名目属性があります。 「Outlook」属性で最も頻繁に使用される値は「rain」と「sunny」で、10個中4個の例で発生します。したがって、それらの比率は0.4です。 「風」属性の最も頻繁な値は「false」で、10個の例のうち7個で発生します。したがって、その比率は0.7です。
不要な属性の削除演算子がExampleSetに適用されます。上記の無用な名目上のパラメーターは0.6に設定されています。したがって、例の総数に対する最頻値の比率が0.6を超える属性は、ExampleSetから削除されます。 Wind属性の最も頻繁な値の比率が0.6より大きいため、ExampleSetから削除されます。
役に立たない名目上のパラメーターは0.5に設定されます。したがって、サンプルの総数に対する最も頻繁な値の比率が0.5未満の属性は、ExampleSetから削除されます。 Outlook属性の最も頻繁な値の比率は0.5未満なので、ExampleSetから削除されます。
これは、結果ワークスペースで結果を確認することで確認できます。
ExampleSetから不要な数値属性を削除する
このプロセス例では、数値の最小偏差パラメータを使用して無駄な数値属性を削除する方法について説明します。数値の最小偏差パラメーターは、偏差のしきい値を指定します。標準偏差がこの偏差しきい値以下であるような数値属性は、入力ExampleSetから削除されます。標準偏差は、値がどのように広がっているかの尺度です。標準偏差は分散の平方根であり、平均との差の二乗の平均として定義されます。役に立たない属性の削除演算子は、役に立たない属性のユーザー定義の基準を満たす属性を削除することに注意してください。
「ゴルフ」データセットは、検索演算子を使用してロードされます。 Filter Examples演算子がそれに適用され、最初の10個の例をフィルタリングします。これは、このプロセスを理解するための計算を単純化するために行われます。フィルタの例演算子の後にブレークポイントが挿入されるため、不要な属性の削除演算子を適用する前にExampleSetが表示されます。 10個の例があることがわかります。 「温度」と「湿度」の2つの通常の数値属性があります。 Aggregate演算子はExampleSetに適用され、両方の数値属性の標準偏差を計算して表示します。この演算子はここに挿入されるため、実際に計算せずに標準偏差を確認できます。それ以外の場合、この演算子はここでは必要ありません。 「温度」属性と「湿度」属性の標準偏差はそれぞれ7.400と10.682であることがわかります。
不要な属性の削除演算子は、元のExampleSet( ‘Golf’データセットの最初の10個のサンプルを含むExampleSet)に適用されます。数値の最小偏差パラメーターは9.0に設定されます。したがって、標準偏差が9.0未満の数値属性は、ExampleSetから削除されます。温度属性の標準偏差は9.0未満なので、ExampleSetから削除されます。
これは、結果ワークスペースで結果を確認することで確認できます。