ANOVA

概要

この演算子は、パフォーマンスベクトルの比較に使用されます。分散分析（ANOVA）テストを実行して、帰無仮説の確率、つまり「実際の平均は同じ」を決定します。

詳細

ANalysis Of VAriance（ANOVA）は、特定の変数で観測された分散が、さまざまな変動源に起因するコンポーネントに分割される統計モデルです。最も単純な形式では、ANOVAはいくつかのグループの平均がすべて等しいかどうかの統計的検定を提供するため、t検定を3つ以上のグループに一般化します。複数の2標本t検定を行うと、タイプIエラーが発生する可能性が高くなります。このため、ANOVAは2つ、3つ、またはそれ以上の手段を比較するのに役立ちます。「偽陽性」またはタイプIエラーは、帰無仮説を拒否する決定が実際に真実であり、拒否されるべきではないときに行われる確率として定義されます。 RapidMinerは、t検定を実行するためのT検定演算子を提供します。対応のあるt検定は、同じ統計単位で測定された2つの応答の差の平均値がゼロであるという帰無仮説の検定です。

分化

T-Test

複数の2標本t検定を行うと、タイプIエラーが発生する可能性が高くなります。このため、ANOVAは2つ、3つ、またはそれ以上の手段を比較するのに役立ちます。

入力

パフォーマンス（パフォーマンスベクトル）この演算子は、複数の入力を持つことができる入力としてパフォーマンスベクトルを期待します。 1つの入力が接続されると、別の入力（ある場合）を受け入れる準備ができている別のパフォーマンス入力ポートが使用可能になります。入力の順序は同じままです。このオペレーターの最初の入力ポートで提供されるパフォーマンスベクトルは、オペレーターの最初のパフォーマンス出力ポートで使用できます。

出力

有意性（ANOVA有意性）指定されたパフォーマンスベクトルが比較され、有意性テストの結果がこのポートを介して配信されます。
パフォーマンス（パフォーマンスベクトル）このオペレーターは、複数のパフォーマンス出力ポートを持つことができます。 1つの出力が接続されると、別の出力（存在する場合）を配信する準備ができた別のパフォーマンス出力ポートが使用可能になります。出力の順序は同じままです。このオペレーターの最初のパフォーマンス入力ポートで配信されるパフォーマンスベクトルは、オペレーターの最初のパフォーマンス出力ポートで配信されます。

パラメーター

alphaこのパラメーターは、差を有意とみなすかどうかを決定する確率しきい値を指定します。有意性の検定で有意水準alphaよりも低いp値が得られた場合、帰無仮説は棄却されます。帰無仮説は決して証明できないことを理解することが重要です。一連のデータは、帰無仮説のみを拒否するか、拒否できません。たとえば、2つのグループを比較しても、2つのグループの間に統計的に有意な差がないことが明らかになっても、現実に違いがないという意味ではありません。これは、帰無仮説を棄却するのに十分な証拠がないことを意味します（言い換えれば、実験は帰無仮説を棄却できません）。範囲：実数

チュートリアルプロセス

統計的有意性検定を使用したパフォーマンスベクトルの比較

多くのRapidMiner演算子を使用して、学習者のパフォーマンスや前処理手順などを推定できます。これらの検証演算子の結果は、パフォーマンス基準の値を収集するパフォーマンスベクトルです。各基準について、平均値と標準偏差が与えられます。問題は、これらのパフォーマンスベクトルをどのように比較できるかです。 ANOVAやT検定などの統計的有意性検定を使用して、実際の平均値が異なる確率を計算できます。このプロセス例は、まったく同じタスクを実行します。

このサンプルプロセスは、出力として2つのパフォーマンスベクトルを提供するサブプロセス演算子で始まります。サブプロセス演算子の内部演算子をご覧ください。データの生成演算子は、ExampleSetの生成に使用されます。 Multiply演算子は、このExampleSetの複数のコピーを作成するために使用されます。 X-Validation演算子は、ExampleSetの両方のコピーに適用されます。最初のX-Validationオペレーターはサポートベクターマシン（LibSVM）オペレーターを使用し、2番目のX-Validationオペレーターはトレーニングサブプロセスで線形回帰演算子を使用します。結果のパフォーマンスベクトルは、サブプロセス演算子の出力です。

これらのパフォーマンスベクトルは、それぞれT-TestおよびANOVA演算子を使用して比較されます。パフォーマンスベクトルと有意性テストの結果は、プロセスの結果ポートに接続され、結果ワークスペースで表示できます。プロセスを実行し、結果を比較します。 2つのパフォーマンスベクトルのみが作成されたため、有意差の確率は等しくなります。この場合、実際の平均値はおそらく異なるため、SVMはおそらく手元のデータセットにより適しています。 SVMは、p値がアルファよりも小さいため、実際の平均値とおそらく有意な差があることを示しているため、より優れていると見なされます。