Decision Stump
概要
この演算子は、単一の分割のみで決定木を学習します。この演算子は、名目データセットと数値データセットの両方に適用できます。
詳細
Decision Stumpオペレーターは、単一のスプリットのみを持つ決定ツリーの生成に使用されます。結果のツリーは、目に見えない例を分類するために使用できます。この演算子は、AdaBoost演算子のような演算子でブーストすると非常に効率的です。指定されたExampleSetの例にはいくつかの属性があり、すべての例はクラスに属します(yesまたはnoなど)。デシジョンツリーのリーフノードにはクラス名が含まれますが、非リーフノードはデシジョンノードです。決定ノードは、各ブランチ(別の決定ツリーへの)が属性の可能な値である属性テストです。デシジョンツリーの詳細については、デシジョンツリー演算子を調べてください。
入力
- トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。
出力
- モデル(デシジョンツリー)この出力ポートから、単一のスプリットのみを含む決定ツリーが配信されます。この分類モデルは、ラベル属性の予測のために、見えないデータセットに適用できるようになりました。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- criterionこのパラメーターは、分割のために属性が選択される基準を指定します。次の値のいずれかを指定できます。
- information_gain:すべての属性のエントロピーが計算されます。最小エントロピーを持つ属性が分割用に選択されます。この方法には、多数の値を持つ属性を選択する傾向があります。
- gain_ratio:情報ゲインの変形です。各属性の情報ゲインを調整して、属性値の幅と均一性を可能にします。
- gini_index:これは、ExampleSetの不純度の尺度です。選択した属性で分割すると、結果のサブセットの平均giniインデックスが減少します。
- 精度:このような属性は、ツリー全体の精度を最大化する分割用に選択されます。
範囲:選択
- minimal_leaf_size葉ノードのサイズは、サブセット内の例の数です。ツリーは、すべてのリーフノードサブセットが少なくともリーフサイズの最小インスタンス数を持つように生成されます。 範囲:整数
チュートリアルプロセス
Decision Stumpオペレーターの概要
ツリーの基本的な用語を理解するには、デシジョンツリーオペレーターのプロセス例について学習してください。
「ゴルフ」データセットは、検索演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 Decision Stumpオペレーターは、このExampleSetに適用されます。基準パラメーターは「情報ゲイン」に設定され、最小リーフサイズパラメーターは1に設定されます。結果のデシジョンツリーモデルはプロセスの結果ポートに接続され、結果ワークスペースで確認できます。このデシジョンツリーには単一の分割があることがわかります。