Decision Stump

概要

この演算子は、単一の分割のみで決定木を学習します。この演算子は、名目データセットと数値データセットの両方に適用できます。

詳細

Decision Stumpオペレーターは、単一のスプリットのみを持つ決定ツリーの生成に使用されます。結果のツリーは、目に見えない例を分類するために使用できます。この演算子は、AdaBoost演算子のような演算子でブーストすると非常に効率的です。指定されたExampleSetの例にはいくつかの属性があり、すべての例はクラスに属します（yesまたはnoなど）。デシジョンツリーのリーフノードにはクラス名が含まれますが、非リーフノードはデシジョンノードです。決定ノードは、各ブランチ（別の決定ツリーへの）が属性の可能な値である属性テストです。デシジョンツリーの詳細については、デシジョンツリー演算子を調べてください。

入力

トレーニングセット（IOObject）この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。

出力

モデル（デシジョンツリー）この出力ポートから、単一のスプリットのみを含む決定ツリーが配信されます。この分類モデルは、ラベル属性の予測のために、見えないデータセットに適用できるようになりました。
サンプルセット（IOObject）入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

criterionこのパラメーターは、分割のために属性が選択される基準を指定します。次の値のいずれかを指定できます。
- information_gain：すべての属性のエントロピーが計算されます。最小エントロピーを持つ属性が分割用に選択されます。この方法には、多数の値を持つ属性を選択する傾向があります。
- gain_ratio：情報ゲインの変形です。各属性の情報ゲインを調整して、属性値の幅と均一性を可能にします。
- gini_index：これは、ExampleSetの不純度の尺度です。選択した属性で分割すると、結果のサブセットの平均giniインデックスが減少します。
- 精度：このような属性は、ツリー全体の精度を最大化する分割用に選択されます。
範囲：選択
minimal_leaf_size葉ノードのサイズは、サブセット内の例の数です。ツリーは、すべてのリーフノードサブセットが少なくともリーフサイズの最小インスタンス数を持つように生成されます。範囲：整数

チュートリアルプロセス

Decision Stumpオペレーターの概要

ツリーの基本的な用語を理解するには、デシジョンツリーオペレーターのプロセス例について学習してください。

「ゴルフ」データセットは、検索演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 Decision Stumpオペレーターは、このExampleSetに適用されます。基準パラメーターは「情報ゲイン」に設定され、最小リーフサイズパラメーターは1に設定されます。結果のデシジョンツリーモデルはプロセスの結果ポートに接続され、結果ワークスペースで確認できます。このデシジョンツリーには単一の分割があることがわかります。