RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Create Association Rules

概要

この演算子は、指定された頻出アイテムセットのセットから関連付けルールのセットを生成します。

詳細

アソシエーションルールは、一見無関係なデータ間の関係を明らかにするのに役立つif / thenステートメントです。関連付けルールの例は、「顧客が卵を購入した場合、80%が牛乳も購入する可能性が高い」です。アソシエーションルールには、前件(if)と後件(then)の2つの部分があります。前件は、データ内で見つかったアイテム(またはアイテムセット)です。結果は、前件との組み合わせで見つかったアイテム(またはアイテムセット)です。

アソシエーションルールは、頻繁なif / thenパターンのデータを分析し、最も重要な関係を識別するための基準サポート信頼性を使用して作成されます。サポートは、アイテムがデータベースに表示される頻度を示します。信頼度は、if / thenステートメントが真であると判明した回数を示します。頻繁なif / thenパターンは、FP-Growth演算子などの演算子を使用してマイニングされます。関連付けルールの作成演算子は、これらの頻繁なアイテムセットを取得して、関連付けルールを生成します。

そのような情報は、プロモーション価格や製品の配置などのマーケティング活動に関する決定の基礎として使用できます。マーケットバスケット分析の上記の例に加えて、今日では、Web使用マイニング、侵入検知、バイオインフォマティクスなど、多くのアプリケーション分野で関連付けルールが採用されています。

入力

  • アイテムセット (頻繁なアイテムセット)この入力ポートは、頻繁なアイテムセットを想定しています。 FP-Growth演算子のような演算子は、これらの頻繁なアイテムセットを提供するために使用できます。

出力

  • アイテムセット(頻繁なアイテムセット)入力として与えられたアイテムセットは、このポートを介して出力に変更されることなく渡されます。これは通常、他のオペレーターで同じアイテムセットを再利用したり、結果ワークスペースでアイテムセットを表示するために使用されます。
  • ルール(関連付けルール)アソシエーションルールは、この出力ポートを介して配信されます。

パラメーター

  • criterionこのパラメーターは、ルールの選択に使用される基準を指定します。
    • confidence:ルールの信頼度はconf(XはYを意味します)= supp(X∪Y)/ supp(X)で定義されます。式を読むときは注意してください。ここでsupp(X∪Y)は、「XとYの両方が現れるトランザクションの発生のサポート」ではなく、「XとYの両方が現れるトランザクションの発生のサポート」を意味します。信頼度の範囲は0〜1です。信頼度は、Pr(Y | X)、Xが与えられたYを観測する確率の推定値です。アイテムセットXのサポートsupp(X)は、データセット内のトランザクションの割合として定義されます。アイテムセット。
    • lift:ルールのリフトは、lift(XはYを意味します)= supp(X∪Y)/((supp(Y)x supp(X))またはXとYの場合に予想されるサポートに対する観測されたサポートの比率として定義されますliftはまた、lift(XがYを意味する)= conf(XがYを意味する)/ supp(Y)として定義することもできます。 1は、XとYが独立しており、ルールが面白くないことを意味します。
    • conviction:有罪判決はルールの方向に敏感です。つまり、conv(XはYを意味します)はconv(YはXを意味します)と同じではありません。信念は、含意の論理的定義にやや影響を受け、ルールの含意の程度を測定しようとします。確信はconv(XはYを意味する)=(1-supp(Y))/(1-conf(XはYを意味する))として定義されます
    • ゲイン:このオプションを選択すると、ゲインシータパラメーターを使用してゲインが計算されます。
    • laplace:このオプションを選択すると、laplace kパラメーターを使用してラプラスが計算されます。
    • ps:このオプションを選択すると、ps基準がルール選択に使用されます。

    範囲:選択

  • min_confidenceこのパラメーターは、ルールの最小信頼度を指定します。 範囲:実数
  • min_criterion_valueこのパラメーターは、選択した基準のルールの最小値を指定します。 範囲:実数
  • gain_thetaこのパラメータは、ゲイン計算で使用されるパラメータシータを指定します。 範囲:実数
  • laplace_kこのパラメーターは、ラプラス関数の計算に使用されるパラメーターkを指定します。 範囲:実数

チュートリアルプロセス

関連付けルールの作成演算子の概要

「アイリス」データセットは、Retrieve演算子を使用してロードされます。 ExampleSetを表示できるように、ブレークポイントがここに挿入されます。ご覧のとおり、ExampleSetには実際の属性があります。したがって、FP-Growth演算子はすべての属性が二項であることを必要とするため、FP-Growth演算子を直接適用することはできません。 ExampleSetを目的の形式に成形するには、いくつかの前処理を行う必要があります。周波数による離散化演算子は、実際の属性を公称属性に変更するために適用されます。次に、名義から二項演算子を適用して、これらの名義属性を二項属性に変更します。最後に、FP-Growth演算子を適用して、頻繁なアイテムセットを生成します。 FP-Growthオペレーターから生成された頻出アイテムセットは、Create Association Rulesオペレーターに提供されます。結果の関連付けルールは、結果ワークスペースで表示できます。この演算子をよりよく理解するには、さまざまなパラメーターのさまざまな値でこのプロセスを実行します。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル