CHAID
概要
この演算子は、カイ2乗属性関連性テストに基づいて枝刈りされた決定木を生成します。この演算子は、名義データを持つExampleSetにのみ適用できます。
詳細
CHAIDデシジョンツリー演算子は、1つの例外を除いてデシジョンツリー演算子とまったく同じように機能します。情報ゲインまたはゲイン比の基準ではなく、カイ2乗ベースの基準を使用します。さらに、この演算子は、数値属性を持つExampleSetには適用できません。デシジョンツリーの基本を理解するには、デシジョンツリーオペレータのドキュメントを調べることをお勧めします。
CHAIDは、CHi-squared Automatic Interaction Detectionの略です。カイ2乗統計は、観測された頻度の分布が理論上の予想頻度と異なるかどうかを判断するために使用されるノンパラメトリック統計手法です。カイ2乗統計は名義データを使用するため、このテストでは平均と分散を使用する代わりに、頻度を使用します。 CHAIDの利点は、その出力が非常に視覚的で解釈しやすいことです。既定では多方向分割を使用するため、効果的に機能するにはかなり大きなサンプルサイズが必要です。サンプルサイズが小さいと、回答者グループがすぐに小さくなり、信頼性の高い分析ができなくなるためです。
このデータの表現には、意味があり解釈しやすいという他のアプローチと比較して利点があります。目標は、ExampleSetのいくつかの入力属性に基づいてラベルの値を予測する分類モデルを作成することです。ツリーの各内部ノードは、入力属性の1つに対応しています。内部ノードのエッジの数は、対応する入力属性の可能な値の数に等しくなります。各リーフノードは、ルートからリーフへのパスで表される入力属性の値が与えられると、ラベルの値を表します。この説明は、ディシジョンツリーオペレーターのプロセス例を調べることで簡単に理解できます。
プルーニングは、決定木の識別力に追加しないリーフノードを削除する手法です。これは、未特定のデータセットに対する予測力を強化するために、過剰に特定されたツリーまたは過剰に適合したツリーをより一般的な形式に変換するために行われます。事前プルーニングは、ツリー作成プロセスと並行して実行されるプルーニングの一種です。一方、ポストプルーニングは、ツリー作成プロセスが完了した後に行われます。
分化
CHAID演算子は、決定ツリー演算子とまったく同じように機能しますが、1つの例外があります。情報ゲインまたはゲイン比の基準ではなく、カイ2乗ベースの基準を使用します。さらに、この演算子は、数値属性を持つExampleSetには適用できません。
デシジョンツリー(重量ベース)
カイ二乗統計による重み演算子が、ディシジョンツリー(重みベース)演算子のサブプロセスの属性の重みに適用される場合、CHAID演算子とまったく同じように機能します。
入力
- トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例の名義データの生成演算子の出力です。他の演算子の出力も入力として使用できます。この演算子は数値データを処理できないため、ExampleSetに数値属性を含めることはできません。
出力
- モデル(デシジョンツリー)CHAIDディシジョンツリーは、この出力ポートから配信されます。この分類モデルは、ラベル属性の予測のために、見えないデータセットに適用できるようになりました。
- サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- minimal_size_for_splitノードのサイズは、サブセット内のサンプルの数です。ルートノードのサイズは、ExampleSetのサンプルの総数に等しくなります。 サイズがsplitパラメーターの最小サイズ以上のノードのみが分割されます。 範囲:整数
- minimal_leaf_size葉ノードのサイズは、サブセット内の例の数です。ツリーは、すべてのリーフノードサブセットが少なくともリーフサイズの最小インスタンス数を持つように生成されます。 範囲:整数
- minimal_gainノードのゲインは、分割する前に計算されます。ノードのゲインが最小ゲインより大きい場合、ノードは分割されます。最小ゲインの値を大きくすると、分割が少なくなり、ツリーが小さくなります。値が高すぎると、分割が完全に妨げられ、単一ノードのツリーが生成されます。 範囲:実数
- maximal_depthツリーの深さは、大きさやExampleSetの性質に応じて変化します。このパラメーターは、ディシジョンツリーのサイズを制限するために使用されます。ツリーの深さが最大の深さと等しい場合、ツリー生成プロセスは継続されません。値が「-1」に設定されている場合、 最大深度パラメーターはツリーの深度に制限を課さず、最大深度のツリーが生成されます。値が「1」に設定されている場合、単一ノードを持つツリーが生成されます。 範囲:整数
- Confidenceこのパラメータは、枝刈りの悲観的誤差計算に使用される信頼レベルを指定します。 範囲:実数
- number_of_prepruning_alternatives prepruningはツリー生成プロセスと並行して実行されるため、特定のノードでの分割がツリー全体の識別力を増やさない場合、特定のノードでの分割を防ぐことができます。このような場合、代替ノードが分割のために試行されます。このパラメーターは、特定のノードでの事前実行によって防止される場合に、分割を試みる代替ノードの数を調整します。 範囲:整数
- no_prepruningデフォルトでは、デシジョンツリーはprepruningで生成されます。このパラメーターをtrueに設定すると、prepruningが無効になり、prepruningなしでツリーが配信されます。 範囲:ブール
- no_pruningデフォルトでは、決定ツリーは枝刈りで生成されます。このパラメーターをtrueに設定すると、枝刈りが無効になり、枝刈りされていないツリーが配信されます。 範囲:ブール
チュートリアルプロセス
CHAIDオペレーターの概要
Generate Nominal Dataオペレーターは、100個の例を含むExampleSetを生成するために使用されます。 ExampleSetには3つの公称属性があり、すべての属性には3つの可能な値があります。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 CHAID演算子は、すべてのパラメーターのデフォルト値を使用してこのExampleSetに適用されます。結果のモデルはプロセスの結果ポートに接続され、結果ワークスペースで確認できます。