Sample (Stratified)

概要

この演算子は、ExampleSetから層別サンプルを作成します。階層化サンプリングはランダムなサブセットを構築し、サブセット内のクラス分布がExampleSet全体と同じであることを保証します。この演算子は、ラベルなしまたは数値ラベル付きのデータセットには適用できません。サンプルのサイズは、絶対ベースおよび相対ベースで指定できます。

詳細

階層化サンプリングはランダムなサブセットを構築し、サブセット内のクラス分布がExampleSet全体と同じであることを保証します。たとえば、二項分類の場合、層化サンプリングでは、各サブセットにクラスラベルの 2つの値のほぼ同じ割合が含まれるように、ランダムなサブセットが構築されます。

ExampleSetに異なるクラスがある場合、各クラスを個別にサンプリングすることが有利な場合があります。層別化は、サンプリング前にExampleSetの例を同種のサブグループ（クラス）に分割するプロセスです。サブグループは相互に排他的である必要があります。つまり、ExampleSet内のすべての例は、1つのサブグループ（またはクラス）にのみ割り当てる必要があります。また、サブグループは集合的に網羅する必要があります。つまり、例を除外することはできません。次に、各サブグループ内でランダムサンプリングが適用されます。これにより、多くの場合、サンプリングエラーが減少し、サンプルの代表性が向上します。

層別サンプリングを使用した実際の例は、政治調査です。回答者が人口の多様性を反映する必要がある場合、研究者は、上記のように総人口に対する比例に基づいて、人種や宗教などのさまざまな少数グループの参加者を含めることを特に求めます。したがって、層別調査は、単純なランダムサンプリングまたは系統的サンプリングの調査よりも母集団をより代表すると主張できます。

単純なサンプリング演算子（Sample演算子）とは対照的に、この演算子は名目ラベル属性を使用してデータセットの層化サンプリングを実行します。つまり、クラス分布はサンプリング後も（ほぼ）維持されます。したがって、この演算子は、ラベルなしまたは数値ラベル付きのデータセットには適用できません。これらの場合、層化のない単純なサンプリングは、サンプル演算子を使用して実行する必要があります。

この演算子は、ExampleSetを入力として受け取り、ExampleSetのサブセットを出力として配信するという原則のフィルタ例演算子に似ています。違いは、例のフィルター演算子が、指定された条件に基づいて例をフィルターすることです。ただし、Sampleオペレーターは、結果のサンプルの例の数とクラス分布に焦点を合わせます。さらに、サンプルはランダムに生成されます。サンプルのサンプルの数は、 サンプルパラメータの設定に応じて、絶対ベースおよび相対ベースで指定できます。

入力

サンプル入力（IOObject）この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のフィルター例演算子の出力です。

出力

設定出力の例（IOObject）入力ExampleSetのランダム化されたサンプルは、このポートの出力です。サンプルのクラス分布は、完全なExampleSetのクラス分布と（ほぼ）同じです。
オリジナル（IOObject）入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

sampleこのパラメーターは、データ量の指定方法を決定します。
- absolute：サンプルパラメータが ‘absolute’に設定されている場合、サンプルは正確に指定された数のサンプルで作成されます。必要な例の数は、サンプルサイズパラメーターで指定されます。
- 相対：サンプルパラメータが ‘relative’に設定されている場合、サンプルは入力ExampleSetのサンプルの総数の一部として作成されます。サンプルの必要な比率は、サンプル比率パラメーターで指定されます。
範囲：選択
sample_sizeこのパラメーターは、サンプリングするサンプルの正確な数を指定します。このパラメーターは、 sampleパラメーターが「absolute」に設定されている場合にのみ使用可能です。範囲：整数
sample_ratioこのパラメーターは、サンプリングするサンプルの割合を指定します。このパラメーターは、 sampleパラメーターが「relative」に設定されている場合にのみ使用可能です。範囲：実数
use_local_random_seedこのパラメーターは、サンプルの例をランダム化するためにローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じサンプルが生成されます。このパラメーターの値を変更すると、サンプルがランダム化される方法が変更されるため、サンプルにはサンプルの異なるセットが含まれます。範囲：ブール
local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。範囲：整数

チュートリアルプロセス

ゴルフデータセットの層別サンプリング

「ゴルフ」データセットは、検索演算子を使用してロードされます。 Filter Example Range演算子が適用され、最初の10個のサンプルが選択されます。これは、サンプルプロセスを簡素化するために行われます。そうしないと、ここでフィルタリングは不要になります。ここにブレークポイントが挿入されるため、サンプル（階層化）演算子の適用前にExampleSetを表示できます。ご覧のとおり、ExampleSetには10個の例があります。 6つの例（60％）がクラス「yes」に属し、4つの例（40％）がクラス「no」に属します。 Sample（Stratified）演算子がExampleSetに適用されます。サンプルパラメータは「absolute」に設定され、サンプルサイズパラメータは5に設定されます。したがって、結果のサンプルには5つの例しかありません。サンプルには、入力ExampleSetのクラス分布と同じクラス分布があります。つまり、クラス「yes」の60％の例とクラス「no」の40％の例です。これを確認するには、このプロセスの結果を表示します。 5つの例のうち3つ（つまり60％）にクラス「yes」があり、5つの例のうち2つ（つまり40％）にクラス「no」があります。