Sample
概要
この演算子は、サンプルをランダムに選択して、ExampleSetからサンプルを作成します。サンプルのサイズは、絶対ベース、相対ベース、および確率ベースで指定できます。
詳細
この演算子は、ExampleSetを入力として受け取り、ExampleSetのサブセットを出力として配信するという原則のフィルタ例演算子に似ています。違いは、例のフィルター演算子が、指定された条件に基づいて例をフィルターすることです。ただし、Sampleオペレーターは、結果のサンプルの例の数とクラス分布に焦点を合わせます。さらに、サンプルはランダムに生成されます。 サンプルのサンプル数は、 サンプルパラメーターの設定に応じて、絶対、相対、または確率ベースで指定できます。サンプルのクラス分布は、 バランスデータパラメーターによって制御できます。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。添付のプロセス例のRetrieveオペレーターの出力です。
出力
- 設定出力の例(IOObject)入力ExampleSetのランダム化されたサンプルは、このポートの出力です。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- sampleこのパラメーターは、データ量の指定方法を決定します。
- absolute:サンプルパラメータが「absolute」に設定されている場合、サンプルは正確に指定された数のサンプルで作成されます。必要な例の数は、サンプルサイズパラメーターで指定されます。
- relative:sampleパラメーターが ‘relative’に設定されている場合、サンプルは入力ExampleSetのサンプルの総数の一部として作成されます。サンプルの必要な比率は、サンプル比率パラメーターで指定されます。
- probability:サンプルパラメーターが「確率」に設定されている場合、サンプルは確率ベースで作成されます。必要な確率は、サンプル確率パラメーターで指定されます。
範囲:選択
- balance_data特定のクラスの例で異なるサンプリングを行う必要がある場合、このパラメーターをtrueに設定できます。このパラメーターがtrueに設定されている場合、 サンプルサイズ 、 サンプル比 、およびサンプル確率パラメーターは、それぞれクラス ごとのサンプルサイズ、クラス ごとのサンプル比 、およびクラスごとのサンプル確率に置き換えられます。これらのパラメーターを使用すると、ラベル属性の値ごとに異なるサンプルサイズを指定できます。 範囲:ブール
- sample_sizeこのパラメーターは、サンプリングするサンプルの正確な数を指定します。このパラメーターは、 サンプルパラメーターが「absolute」に設定されており、 balance dataパラメーターがtrueに設定されていない場合にのみ使用できます。 範囲:整数
- sample_ratioこのパラメーターは、サンプリングするサンプルの割合を指定します。このパラメーターは、 サンプルパラメーターが「相対」に設定されており、 残高データパラメーターがtrueに設定されていない場合にのみ使用できます。 範囲:実数
- sample_probabilityこのパラメーターは、各例のサンプル確率を指定します。このパラメーターは、 サンプルパラメーターが「確率」に設定され、 残高データパラメーターがtrueに設定されていない場合にのみ使用できます。 範囲:実数
- sample_size_per_classこのパラメーターは、クラスごとの絶対サンプルサイズを指定します。このパラメーターは、 サンプルパラメーターが「絶対」に設定され、 バランスデータパラメーターがtrueに設定されている場合にのみ使用できます。 範囲:
- sample_ratio_per_classこのパラメーターは、クラスごとのサンプルの割合を指定します。このパラメーターは、 サンプルパラメーターが「相対」に設定され、 残高データパラメーターがtrueに設定されている場合にのみ使用できます。 範囲:
- sample_probability_per_classこのパラメーターは、クラスごとの例の確率を指定します。このパラメーターは、 サンプルパラメーターが「確率」に設定され、 バランスデータパラメーターがtrueに設定されている場合にのみ使用できます。 範囲:
- use_local_random_seedこのパラメーターは、サンプルの例をランダム化するためにローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じサンプルが生成されます。このパラメーターの値を変更すると、サンプルのランダム化方法が変更されるため、サンプルには異なるサンプルのセットが含まれます。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
チュートリアルプロセス
Ripley-Setデータセットのサンプリング
「Ripley-Set」データセットは、Retrieve演算子を使用してロードされます。サンプルを一意に識別できるように、Generate ID演算子が適用されます。 Sample演算子が適用される前にExampleSetを確認できるように、この段階でブレークポイントが挿入されます。 0と1の2つの可能なクラスを含む250の例があることがわかります。125の例にはクラス0があり、125の例にはクラス1があります。サンプルパラメータは「相対」に設定されます。バランスデータパラメータはtrueに設定されます。クラスパラメーターごとのサンプル比率は、2つの比率を指定します。クラス0には比率0.2が割り当てられます。したがって、ラベル属性が0であるすべての例のうち、20パーセントのみが選択されます。クラス0の例は125個あったので、25個(125個の20%)の例が選択されます。クラス1には比率1が割り当てられます。したがって、ラベル属性が1であるすべての例のうち、100パーセントが選択されます。クラス1には125個の例があったため、125個すべての例(125個の100%)が選択されます。プロセスを実行すると、結果を確認できます。また、例はランダムに取られていることに注意してください。ランダム化は、ローカルランダムシードパラメーターを変更することで変更できます。