RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

T-Test

概要

この演算子は、パフォーマンスベクトルの比較に使用されます。この演算子はt検定を実行して帰無仮説の確率、つまり「実際の平均は同じ」を決定します。

詳細

T検定演算子は、与えられたパフォーマンスベクトルに対して帰無仮説(つまり、すべての実際の平均値が同じ)が成り立つかどうかを判断します。この演算子は、単純なペアのt検定を使用して、帰無仮説が間違っている確率を決定します。 t検定は2つのパフォーマンスベクトルにのみ適用できるため、この検定はすべての可能なペアに適用されます。結果は有意行列です。

対応のあるt検定は、同じ統計単位で測定された2つの応答の差の平均値がゼロであるという帰無仮説の検定です。たとえば、治療前後のがん患者の腫瘍のサイズを測定するとします。治療が効果的である場合、多くの患者の腫瘍サイズは治療後に小さくなると予想されます。これは、「ペア」または「反復測定」t検定と呼ばれることがよくあります。

この演算子の場合、依存サンプル(または「ペア」)t検定は、パフォーマンスベクトルのペアで構成されます。複数のペアのt検定を行うと、タイプIエラーが発生する可能性が高くなります。 「偽陽性」またはタイプIエラーは、帰無仮説を拒否する決定が実際に真実であり、拒否されるべきではないときに行われる確率として定義されます。追加のANOVAテストを適用して、帰無仮説がまったく間違っているかどうかを判断することをお勧めします。 ANOVAテストを実行するには、ANOVA演算子を使用してください。

分化

ANOVA

複数の2標本t検定を行うと、タイプIエラーが発生する可能性が高くなります。このため、ANOVAは2つ、3つ、またはそれ以上の手段を比較するのに役立ちます。

入力

  • パフォーマンス (パフォーマンスベクトル)この演算子は、入力としてパフォーマンスベクトルを期待し、複数の入力を持つことができます。 1つの入力が接続されると、別の入力(ある場合)を受け入れる準備ができている別のパフォーマンス入力ポートが使用可能になります。入力の順序は同じままです。このオペレーターの最初の入力ポートで提供されるパフォーマンスベクトルは、オペレーターの最初のパフォーマンス出力ポートで使用できます。

出力

  • 有意性(T検定の有意性)指定されたパフォーマンスベクトルが比較され、有意性テストの結果がこのポートを介して配信されます。
  • パフォーマンス(パフォーマンスベクトル)このオペレーターは、複数のパフォーマンス出力ポートを持つことができます。 1つの出力が接続されると、別の出力(存在する場合)を配信する準備ができた別のパフォーマンス出力ポートが使用可能になります。出力の順序は同じままです。このオペレーターの最初のパフォーマンス入力ポートで配信されるパフォーマンスベクトルは、オペレーターの最初のパフォーマンス出力ポートで配信されます。

パラメーター

  • alphaこのパラメーターは、差を有意とみなすかどうかを決定する確率しきい値を指定します。有意性の検定で有意水準alphaよりも低いp値が得られた場合、帰無仮説は棄却されます。帰無仮説は決して証明できないことを理解することが重要です。一連のデータは、帰無仮説のみを拒否するか、拒否できません。たとえば、2つのグループを比較しても、2つのグループの間に統計的に有意な差がないことが明らかになっても、現実に違いがないという意味ではありません。これは、帰無仮説を棄却するのに十分な証拠がないことを意味します(言い換えれば、実験は帰無仮説を棄却できません)。 範囲:実数

チュートリアルプロセス

統計的有意性検定を使用したパフォーマンスベクトルの比較

多くのRapidMiner演算子を使用して、学習者のパフォーマンスや前処理手順などを推定できます。これらの検証演算子の結果は、パフォーマンス基準の値を収集するパフォーマンスベクトルです。各基準について、平均値と標準偏差が与えられます。問題は、これらのパフォーマンスベクトルをどのように比較できるかです。 ANOVAやT検定などの統計的有意性検定を使用して、実際の平均値が異なる確率を計算できます。このプロセス例は、まったく同じタスクを実行します。

このサンプルプロセスは、出力として2つのパフォーマンスベクトルを提供するサブプロセス演算子で始まります。サブプロセス演算子の内部演算子をご覧ください。データの生成演算子は、ExampleSetの生成に使用されます。 Multiply演算子は、このExampleSetの複数のコピーを作成するために使用されます。 X-Validation演算子は、ExampleSetの両方のコピーに適用されます。最初のX-Validationオペレーターはサポートベクターマシン(LibSVM)オペレーターを使用し、2番目のX-Validationオペレーターはトレーニングサブプロセスで線形回帰演算子を使用します。結果のパフォーマンスベクトルは、サブプロセス演算子の出力です。

これらのパフォーマンスベクトルは、それぞれT-TestおよびANOVA演算子を使用して比較されます。パフォーマンスベクトルと有意性テストの結果は、プロセスの結果ポートに接続され、結果ワークスペースで表示できます。プロセスを実行し、結果を比較します。 2つのパフォーマンスベクトルのみが作成されたため、有意差の確率は等しくなります。この場合、実際の平均値はおそらく異なるため、SVMはおそらく手元のデータセットにより適しています。 SVMは、p値がアルファよりも小さいため、実際の平均値の間におそらく有意な差があることを示すため、より優れていると見なされます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル