Subgroup Discovery
概要
この演算子は、徹底的なサブグループ検出を実行します。サブグループの発見の目標は、十分に大きく統計的に異常な母集団のサブセットを記述するルールを見つけることです。
詳細
この演算子は、仮説を徹底的に生成することにより、サブグループを発見します(またはルールセットを誘導します)。生成は、空の仮説(リテラルを含まない)を段階的に改良することにより行われます。したがって、このタスクのループは、探索空間の深さ、つまり生成された仮説のリテラルの数を反復処理します。検索の最大深度は、 max depthパラメータで指定できます。さらに、探索空間は、仮説の( 最小カバレッジパラメータによって)最小カバレッジを指定することにより、または最高カバレッジを有する仮説だけ所定量を使用して剪定することができます。仮説から、ユーザーの好みに応じてルールが導き出されます。この演算子は、正のルールと負のルールを別々に派生させたり、両方のルールを派生させたり、仮説でカバーされている例のために最も可能性の高いルールのみを派生させたりすることで組み合わせを可能にします(したがって、そのサブセットの実際の予測)。この動作は、 ルール生成パラメーターによって制御できます。生成されたすべてのルールは、ユーザー指定のユーティリティ関数( ユーティリティ関数パラメーターで指定)によってExampleSetで評価され、次の場合に最終ルールセットに保存されます
- 最小ユーティリティしきい値(minユーティリティパラメータで指定)を超えているか、
- それらは、k個の最良の規則の1つです(kはk個の最良の規則パラメーターによって指定されます)。
目的の動作は、 modeパラメーターで指定できます。
サブグループの発見の問題は次のように定義されています:個人の母集団とそれらの個人の特性を考えると、統計的に最も興味深い集団サブグループを見つけることに興味があります。たとえば、できるだけ大きく、最も異常な統計(分布)対象のプロパティに関する特性。サブグループの検出では、ルールの形式はClass>-Condで 、サブグループの検出に関係するプロパティは、結果のルールに表示されるクラス値Classであり、ルールの前件Condは、選択された機能(属性値ペア)の結合ですトレーニングインスタンスを説明する機能から。ルールはラベル付きトレーニングインスタンスから誘導されるため(関心のあるプロパティが保持される場合はプラス、その他の場合はマイナスとラベル付けされます)、サブグループディスカバリのプロセスは、特定の関心のあるプロパティを持つ個人の選択されたターゲット集団のプロパティを明らかにすることを目的としています。この意味で、サブグループの発見は教師あり学習の一形態です。ただし、サブグループの発見は多くの点で記述的帰納法の一形態であり、タスクはデータ内の個々の興味深いパターンを明らかにすることです。
ルール学習は、分類ルール学習および関連ルール学習のコンテキストで最も頻繁に使用されます。分類ルール学習は予測誘導(または教師あり学習)へのアプローチであり、分類および/または予測に使用される一連のルールの構築を目的としていますが、相関ルール学習は記述的誘導(非分類誘導または教師なし学習)の一種です)、データの興味深いパターンを定義する個々のルールの発見を目的としています。
サブグループの発見(予測的誘導と記述的誘導の交差点でのタスクとして)と分類ルール学習(予測的誘導の形式として)の違いを強調しましょう。標準ルール学習の目的は、トレーニング例の説明で発生するプロパティの観点からクラスの特性を説明するルールセットで構成されるモデルを各クラスに1つずつ生成することです。対照的に、サブグループの発見は、関心のある個々のルールまたは「パターン」を発見することを目的としています。これらは、明示的なシンボリック形式で表現する必要があり、潜在的なユーザーによって実行可能であると認識されるために比較的単純でなければなりません。さらに、標準分類ルール学習アルゴリズムは、サブグループ発見での分類ルール誘導アプローチの適用性を妨げるルールセット構築にカバーアルゴリズムを使用するため、サブグループ発見のタスクに適切に対処できません。サブグループの発見は、通常、異なる目標(誘導されたルールセットの分類精度を最大化する代わりに興味深い母集団のサブグループの発見)に対処するため、分類とは異なると見なされます。
入力
- トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例の名義データの生成演算子の出力です。他の演算子の出力も入力として使用できます。
出力
- モデル(ルールセット)ルールセットは、この出力ポートから配信されます。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- modeこのパラメーターは、検出モードを指定します。
- minimum_utility:このオプションが選択されている場合、ルールは、minユーティリティパラメータで指定された最小ユーティリティしきい値を超える場合、最終ルールセットに保存されます。
- k_best_rules:このオプションが選択された場合、ルールはk個のベストルール(kはkベストルールパラメーターで指定されます)の中にある場合、最終ルールセットに保存されます。
範囲:選択
- utility_functionこのパラメータは、目的のユーティリティ関数を指定します。 範囲:選択
- min_utilityこのパラメーターは、最小のユーティリティーを指定します。このパラメーターは、 modeパラメーターが「minimum utility」に設定されている場合に役立ちます。ルールは、このパラメーターで指定されたユーティリティの最小しきい値を超える場合、最終ルールセットに保存されます。 範囲:実数
- k_best_rulesこのパラメーターは、必要な最適ルールの数を指定します。このパラメーターは、 modeパラメーターが「k best rules」に設定されている場合に役立ちます。ルールは、 kがこのパラメーターで指定されているk個のベストルールの中にある場合、最終ルールセットに格納されます。 範囲:整数
- rule_generationこのパラメーターは、生成するルールを決定します。この演算子は、正のルールと負のルールを別々に派生させたり、両方のルールを派生させたり、仮説でカバーされている例のために最も可能性の高いルールのみを派生させたりすることで組み合わせを可能にします(したがって、そのサブセットの実際の予測)。 範囲:選択
- max_depthこのパラメーターは、幅優先検索の最大深度を指定します。このタスクのループは、探索空間の深さ、つまり生成された仮説のリテラルの数で繰り返されます。検索の最大深度は、このパラメーターで指定できます。 範囲:整数
- min_coverageこのパラメーターは、最小カバレッジを指定します。このカバレッジしきい値を超えるルールのみが考慮されます。 範囲:実数
- max_cacheこのパラメーターは、評価されるルールの数を制限します(最もサポートされているルールのみが使用されます)。 範囲:整数
チュートリアルプロセス
Subgroup Discoveryオペレーターの概要
ExampleSetの生成には、名義データの生成演算子が使用されます。 ExampleSetには、100個の例を含む2つの二項属性があります。サブグループ検出演算子は、すべてのパラメーターのデフォルト値を使用してこのExampleSetに適用されます。モードパラメーターは「kベストルール」に設定され、kベストルールパラメーターは10に設定されます。さらに、ユーティリティ関数パラメーターは「WRAcc」に設定されます。したがって、ルールセットは、WRAcc関数によって評価される10個の最適なルールで構成されます。結果のルールセットは、結果ワークスペースで確認できます。 10個のルールがあり、WRAcc値の順にソートされていることがわかります。