Decision Tree (Multiway)
概要
この演算子は、多元決定ツリーを生成します。
詳細
デシジョンツリー(Multiway)演算子は、ネストされた演算子です。つまり、サブプロセスがあります。サブプロセスには、ツリー学習器、つまりExampleSetを予期し、ツリーモデルを生成する演算子が必要です。この演算子を適用するには、サブプロセスの基本的な理解が必要です。サブプロセスの基本的な理解については、サブプロセス演算子のドキュメントをご覧ください。
カテゴリ属性のみを持っている場合、C4.5のようなアルゴリズムを使用して多元決定ツリーを取得できますが、データセットに連続属性が含まれている場合は通常バイナリツリーを取得します。数値属性にバイナリ分割を使用することは、関連する属性がツリーのルートからリーフまでのパスに複数回出現できることを意味します。デシジョンツリーを一連のルールに変換する際にこれらの繰り返しを簡略化できますが、構築されたツリーをより緑豊かにし、不必要に深く、人間の専門家にとって理解しにくくします。連続属性の非バイナリ分割により、ツリーが理解しやすくなり、一部のドメインではより正確なツリーにつながるように見えます。
ツリーとしてのデータの表現は、意味があり解釈しやすいという他のアプローチと比較して利点があります。目標は、ExampleSetのいくつかの入力属性に基づいてラベルの値を予測する分類モデルを作成することです。 treeの各内部ノードは、入力属性の1つに対応しています。内部ノードのエッジの数は、対応する入力属性の可能な値の数に等しくなります。各リーフノードは、ルートからリーフへのパスで表される入力属性の値が与えられると、ラベルの値を表します。この説明は、ディシジョンツリーオペレーターのプロセス例を調べることで簡単に理解できます。
入力
- トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。
出力
- モデル(デシジョンツリー)決定木はこの出力ポートから配信されます。この分類モデルは、ラベル属性の予測のために、見えないデータセットに適用できるようになりました。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
チュートリアルプロセス
デシジョンツリー(マルチウェイ)オペレーターの概要
Golfデータセットは、Retrieveオペレーターを使用してロードされます。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。このExampleSetには、決定木(Multiway)演算子が適用されます。決定木演算子は、決定木(マルチウェイ)演算子のサブプロセスに適用されます。結果のツリーはプロセスの結果ポートに接続され、結果ワークスペースで確認できます。