RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Decision Stump

概要

この演算子は、単一の分割のみで決定木を学習します。この演算子は、名目データセットと数値データセットの両方に適用できます。

詳細

Decision Stumpオペレーターは、単一のスプリットのみを持つ決定ツリーの生成に使用されます。結果のツリーは、目に見えない例を分類するために使用できます。この演算子は、AdaBoost演算子のような演算子でブーストすると非常に効率的です。指定されたExampleSetの例にはいくつかの属性があり、すべての例はクラスに属します(yesまたはnoなど)。デシジョンツリーのリーフノードにはクラス名が含まれますが、非リーフノードはデシジョンノードです。決定ノードは、各ブランチ(別の決定ツリーへの)が属性の可能な値である属性テストです。デシジョンツリーの詳細については、デシジョンツリー演算子を調べてください。

入力

  • トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。

出力

  • モデル(デシジョンツリー)この出力ポートから、単一のスプリットのみを含む決定ツリーが配信されます。この分類モデルは、ラベル属性の予測のために、見えないデータセットに適用できるようになりました。
  • サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • criterionこのパラメーターは、分割のために属性が選択される基準を指定します。次の値のいずれかを指定できます。
    • information_gain:すべての属性のエントロピーが計算されます。最小エントロピーを持つ属性が分割用に選択されます。この方法には、多数の値を持つ属性を選択する傾向があります。
    • gain_ratio:情報ゲインの変形です。各属性の情報ゲインを調整して、属性値の幅と均一性を可能にします。
    • gini_index:これは、ExampleSetの不純度の尺度です。選択した属性で分割すると、結果のサブセットの平均giniインデックスが減少します。
    • 精度:このような属性は、ツリー全体の精度を最大化する分割用に選択されます。

    範囲:選択

  • minimal_leaf_size葉ノードのサイズは、サブセット内の例の数です。ツリーは、すべてのリーフノードサブセットが少なくともリーフサイズ最小インスタンス数を持つように生成されます。 範囲:整数

チュートリアルプロセス

Decision Stumpオペレーターの概要

ツリーの基本的な用語を理解するには、デシジョンツリーオペレーターのプロセス例について学習してください。

「ゴルフ」データセットは、検索演算子を使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 Decision Stumpオペレーターは、このExampleSetに適用されます。基準パラメーターは「情報ゲイン」に設定され、最小リーフサイズパラメーターは1に設定されます。結果のデシジョンツリーモデルはプロセスの結果ポートに接続され、結果ワークスペースで確認できます。このデシジョンツリーには単一の分割があることがわかります。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル