RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Decision Tree (Weight-Based)

概要

この演算子は、任意の属性関連性テストに基づいて枝刈りされた決定木を生成します。属性の重み付けスキームは、内部演算子として提供する必要があります。この演算子は、名義データを持つExampleSetにのみ適用できます。

詳細

デシジョンツリー(重みベース)演算子は、ネストされた演算子です。つまり、サブプロセスがあります。サブプロセスには、属性の重み付けスキーム、つまりExampleSetを予期して属性の重みを生成する演算子が必要です。この演算子を適用するには、サブプロセスの基本的な理解が必要です。サブプロセスの基本的な理解については、サブプロセス演算子のドキュメントをご覧ください。

デシジョンツリー(重みベース)演算子は、1つの例外を除いてデシジョンツリー演算子とまったく同じように機能します。情報ゲインまたはゲイン比の基準ではなく、任意の属性関連性テスト基準を使用します。さらに、この演算子は、数値属性を持つExampleSetには適用できません。デシジョンツリーの基本を理解するには、デシジョンツリーオペレータのドキュメントを調べることをお勧めします。

属性の重み付けにカイ二乗統計による重み演算子が指定されている場合、この演算子はCHAID演算子として機能します。 CHAIDは、CHi-squared Automatic Interaction Detectionの略です。カイ2乗統計は、観測された頻度の分布が理論上の予想頻度と異なるかどうかを判断するために使用されるノンパラメトリック統計手法です。カイ2乗統計は名義データを使用するため、このテストでは平均と分散を使用する代わりに、頻度を使用します。 CHAIDの利点は、その出力が非常に視覚的で解釈しやすいことです。既定では多方向分割を使用するため、効果的に機能するにはかなり大きなサンプルサイズが必要です。サンプルサイズが小さいと、回答者グループがすぐに小さくなり、信頼性の高い分析ができなくなるためです。

ツリーとしてのデータの表現は、意味があり解釈しやすいという他のアプローチと比較して利点があります。目標は、ExampleSetのいくつかの入力属性に基づいてラベルの値を予測する分類モデルを作成することです。ツリーの各内部ノードは、入力属性の1つに対応しています。内部ノードのエッジの数は、対応する入力属性の可能な値の数に等しくなります。各リーフノードは、ルートからリーフへのパスで表される入力属性の値が与えられると、ラベルの値を表します。この説明は、ディシジョンツリーオペレーターのプロセス例を調べることで簡単に理解できます。

プルーニングは、決定木の識別力に追加しないリーフノードを削除する手法です。これは、未特定のデータセットに対する予測力を強化するために、過剰に特定されたツリーまたは過剰に適合したツリーをより一般的な形式に変換するために行われます。事前プルーニングは、ツリー作成プロセスと並行して実行されるプルーニングの一種です。一方、ポストプルーニングは、ツリー作成プロセスが完了した後に行われます。

分化

チャイド

カイ二乗統計による重み演算子が、ディシジョンツリー(重みベース)演算子のサブプロセスの属性の重みに適用される場合、CHAID演算子とまったく同じように機能します。

入力

  • トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例の名義データの生成演算子の出力です。他の演算子の出力も入力として使用できます。この演算子は数値データを処理できないため、ExampleSetに数値属性を含めることはできません。

出力

  • モデル(デシジョンツリー)決定木はこの出力ポートから配信されます。この分類モデルは、ラベル属性の予測のために、見えないデータセットに適用できるようになりました。

パラメーター

  • minimal_size_for_splitツリー内のノードのサイズは、サブセット内のサンプルの数です。ルートノードのサイズは、ExampleSetのサンプルの総数に等しくなります。 サイズがsplitパラメーターの最小サイズ以上のノードのみが分割されます。 範囲:整数
  • minimal_leaf_sizeツリーのリーフノードのサイズは、サブセット内のサンプルの数です。ツリーは、すべてのリーフノードサブセットが少なくともリーフサイズ最小インスタンス数を持つように生成されます。 範囲:整数
  • maximal_depthツリーの深さは、大きさやExampleSetの性質に応じて変化します。このパラメーターは、ディシジョンツリーのサイズを制限するために使用されます。ツリーの深さが最大の深さと等しい場合、ツリー生成プロセスは継続されません。値が「-1」に設定されている場合、 最大深度パラメーターはツリーの深度に制限を課さず、最大深度のツリーが生成されます。値が「1」に設定されている場合、単一ノードを持つツリーが生成されます。 範囲:整数
  • Confidenceこのパラメータは、枝刈りの悲観的誤差計算に使用される信頼レベルを指定します。 範囲:実数
  • no_pruningデフォルトでは、決定ツリーは枝刈りで生成されます。このパラメーターをtrueに設定すると、枝刈りが無効になり、枝刈りされていないツリーが配信されます。 範囲:ブール
  • number_of_prepruning_alternatives prepruningはツリー生成プロセスと並行して実行されるため、特定のノードでの分割がツリー全体の識別力を増やさない場合、特定のノードでの分割を防ぐことができます。このような場合、代替ノードが分割のために試行されます。このパラメーターは、特定のノードでの事前実行によって分割が防止される場合に、分割を試行する代替ノードの数を調整します。 範囲:整数

チュートリアルプロセス

デシジョンツリー(ウェイトベース)演算子の概要

Generate Nominal Dataオペレーターは、100個の例を含むExampleSetを生成するために使用されます。 ExampleSetには3つの公称属性があり、すべての属性には3つの可能な値があります。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。デシジョンツリー(重みベース)演算子は、すべてのパラメーターのデフォルト値を使用してこのExampleSetに適用されます。結果のモデルはプロセスの結果ポートに接続され、結果ワークスペースで確認できます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル