RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Linear Discriminant Analysis

概要

この演算子は、線形判別分析(LDA)を実行します。このメソッドは、2つ以上のクラスの例を最適に分離する特徴の線形結合を見つけようとします。結果の組み合わせは、線形分類器として使用されます。判別分析は、どの変数が2つ以上の自然に発生するグループを区別するかを決定するために使用され、記述的または予測的な目的を持つ場合があります。

詳細

この演算子は、線形判別分析(LDA)を実行します。このメソッドは、2つ以上のクラスの例を最もよく分離する特徴の線形結合を見つけようとします。結果の組み合わせは、線形分類器として使用されます。 LDAはANOVA(分散分析)および回帰分析と密接に関連しています。これらの分析では、1つの従属変数を他の特徴または測定値の線形結合として表現しようとします。ただし、他の2つの方法では、従属変数は数値であり、LDAの場合はカテゴリ変数(クラスラベル)です。 LDAは、データを最もよく説明する変数の線形結合を探すという点で、主成分分析(PCA)および因子分析とも密接に関連しています。 LDAは、データのクラス間の違いを明示的にモデル化しようとします。一方、PCAはクラスの違いを考慮していません。

判別分析を使用して、2つ以上の自然発生グループを区別する変数を決定します。たとえば、教育研究者は、(1)大学に進学すること、(2)大学に進学しないことを決定する高校卒業生を区別する変数を調査することができます。そのために、研究者は学生の卒業前に多数の変数に関するデータを収集することができました。卒業後、ほとんどの学生は自然に2つのカテゴリのいずれかに分類されます。その後、判別分析を使用して、どの変数が生徒のその後の教育選択の最良の予測因子であるかを判断できます。計算上、判別関数分析は分散分析(ANOVA)と非常に似ています。たとえば、同じ学生の卒業シナリオを想定します。卒業の1年前に大学に進学するという学生の表明された意図を測定できたかもしれません。 2つのグループ(実際に大学に行ったグループと行っていないグループ)の手段が異なる場合、卒業の1年前に述べたように大学に通う意向があるため、そうでない人とそうでない人を区別することができます大学の境界(およびこの情報は、それぞれの学生に適切なガイダンスを提供するためにキャリアカウンセラーによって使用される場合があります)。判別分析の基礎となる基本的な考え方は、変数の平均に関してグループが異なるかどうかを判断し、その変数を使用してグループメンバーシップ(たとえば、新しいケース)を予測することです。

判別分析は、2つの目的に使用できます。調査中のオブジェクトのグループメンバーシップを考慮して、分類の妥当性を評価するか、または、オブジェクトの多数の(既知の)グループの1つにオブジェクトを割り当てたい。したがって、判別分析には記述的または予測的な目的があります。どちらの場合も、判別分析を実行する前に、いくつかのグループの割り当てを知っておく必要があります。そのようなグループの割り当て、またはラベル付けは、何らかの方法で到達することができます。したがって、判別分析は、クラスター分析(後者の結果を判断するため)または主成分分析の有用な補完として使用できます。

分化

二次判別分析

QDAは2次判別分析(QDA)を実行します。 QDAは線形判別分析(LDA)と密接に関連しています。LDAでは、測定値が正規分布していると想定されています。ただし、LDAとは異なり、QDAでは、各クラスの共分散が同一であるという仮定はありません。

正則化判別分析

RDAは、LDAとQDAの一般化である判別分析(RDA)を正規化しました。両方のアルゴリズムは、このアルゴリズムの特殊なケースです。 alphaパラメーターが1に設定されている場合、RDAオペレーターはLDAを実行します。同様に、alphaパラメーターが0に設定されている場合、RDAオペレーターはQDAを実行します。

入力

  • トレーニングセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。

出力

  • モデル(モデル)判別分析が実行され、結果のモデルがこの出力ポートから配信されます
  • サンプルセット(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • Approximate_covariance_inverseこのパラメーターは、実際の逆行列が存在しない場合に共分散行列の逆行列を近似するかどうかを示します。これはデフォルトで有効になっています。 範囲:ブール

チュートリアルプロセス

LDAオペレーターの紹介

「ソナー」データセットは、検索演算子を使用してロードされます。このExampleSetを見ることができるように、ブレークポイントがここに挿入されます。このExampleSetには線形判別分析演算子が適用されます。線形判別分析演算子が判別分析を実行し、結果のモデルが結果ワークスペースに表示されます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル