Sample (Bootstrapping)
概要
この演算子は、ExampleSetからブートストラップされたサンプルを作成します。ブートストラップサンプリングでは、置換を伴うサンプリングが使用されるため、サンプルにすべてのユニークな例が含まれているとは限りません。サンプルのサイズは、絶対ベースおよび相対ベースで指定できます。
詳細
この演算子は、置換を伴うサンプリングを使用するため、他のサンプリング演算子とは異なります。置換を伴うサンプリングでは、すべてのステップですべての例が選択される確率が等しくなります。サンプルに対してサンプルが選択されると、そのサンプルは選択の候補として残り、他の今後のステップで再び選択できます。したがって、置換のあるサンプルは、同じ例を複数回持つことができます。さらに重要なことは、置換されたサンプルを使用して、元のExampleSetよりもサイズの大きいサンプルを生成できることです。サンプルのサンプルの数は、 サンプルパラメータの設定に応じて、絶対ベースまたは相対ベースで指定できます。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のID生成演算子の出力です。
出力
- 設定出力の例(IOObject)入力ExampleSetのブートストラップされたサンプルは、このポートの出力です。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- sampleこのパラメーターは、データ量の指定方法を決定します。
- absolute:サンプルパラメータが「absolute」に設定されている場合、正確に指定された数のサンプルのサンプルが作成されます。必要な例の数は、サンプルサイズパラメーターで指定されます。
- relative:sampleパラメーターが ‘relative’に設定されている場合、サンプルは入力ExampleSetのサンプルの総数の一部として作成されます。サンプルの必要な比率は、サンプル比率パラメーターで指定されます。
範囲:選択
- sample_sizeこのパラメーターは、サンプリングするサンプルの正確な数を指定します。このパラメーターは、 sampleパラメーターが「absolute」に設定されている場合にのみ使用可能です。 範囲:整数
- sample_ratioこのパラメーターは、サンプリングするサンプルの割合を指定します。このパラメーターは、 sampleパラメーターが「relative」に設定されている場合にのみ使用可能です。 範囲:実数
- use_weights trueに設定すると、そのような重みが存在する場合、ブートストラップ中に例の重みが考慮されます。 範囲:ブール
- use_local_random_seedこのパラメーターは、サンプルの例をランダム化するためにローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じサンプルが生成されます。このパラメーターの値を変更すると、サンプルのランダム化方法が変更されるため、サンプルには異なるサンプルのセットが含まれます。 範囲:ブール
- local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数
チュートリアルプロセス
ゴルフデータセットのブートストラップサンプリング
「ゴルフ」データセットは、検索演算子を使用してロードされます。 Generate ID演算子を適用して、1から始まるidを持つid属性を作成します。これは、例を一意に識別できるようにするためです。それ以外の場合、id属性はここでは必要ありません。ここにブレークポイントが挿入されるため、サンプル(ブートストラップ)演算子の適用前にExampleSetを表示できます。ご覧のとおり、ExampleSetには14の例があります。サンプル(ブートストラップ)演算子は、ExampleSetに適用されます。サンプルパラメータは「absolute」に設定され、サンプルサイズパラメータは140に設定されます。したがって、元のExampleSetの10倍のサイズのサンプルが生成されます。入力ExampleSetの各例を10回繰り返す代わりに、例がランダムに選択されます。これを確認するには、結果ワークスペースでこのプロセスの結果を確認します。