サンプリング方法 (sampling type)

投稿日: 2020年9月1日
OS: Windows 10
バージョン: RapidMiner 9.7

Cross Validationには、以下の4種類のサンプリング方法が用意されています。

linear_sampling(線形サンプリング)：
linear_samplingは、行の順序を変更せずにExampleSetを分割します。
行が連続したサブセットが作成されます。

shuffled_sampling(シャッフルサンプリング)：
shuffled_samplingは、ExampleSetのランダムなサブセットを構築します。
ランダムに行が選択されます。

stratified_sampling(層別サンプリング)：
stratified_samplingはランダムなサブセットを構築します。
サブセット内のクラス分布（ラベル属性で定義）がExampleSet全体と同じであることを保証します。
たとえば二項分類の場合、層別サンプリングでは、各サブセットにラベル
の2つの値のほぼ同じ割合が含まれるように、ランダムなサブセットが構築されます。

automatic(自動モード)：
automaticでは、デフォルトで層別サンプリングが使用されます。
ExampleSetに名義ラベルが含まれていない場合など、適用できない際は
代わりにシャッフルサンプリングが使用されます。

実際に使用したサンプリングの例もご紹介します。以下は、Irisデータセットを用いた際の実行例です。

linear_sampling(線形サンプリング)

データセットは、前から順番通りに分割されます。id番号がきれいに並んでいるのが確認できます。

shuffled_sampling(シャッフルサンプリング)

データの順序やクラスの分布に関係なく、ランダムに選ばれているのが確認できます。

下のstratified_sampling(層別サンプリング)とは違い、クラス分布もランダムに選択されています。そのため、Iris-versicolorの割合が高く選択されています。

stratified_sampling(層別サンプリング)

一見するとshuffled_sampling(シャッフルサンプリング)と似ていますが、stratified_sampling(層別サンプリング)ではクラスの分布が考慮されています。

Irisデータは、labelが1:1:1の割合なので、このときの分布も1:1:1になるようにサンプリングが行われます。

automatic(自動モード)

Irisデータは目的変数がカテゴリ値なので、stratified_sampling(層別サンプリング)が適用されます。そのため、結果はstratified_sampling(層別サンプリング)のときと全く同じになります。

automatic(自動モード)の便利な点は、目的変数によってサンプリング方法を選択する必要がない点です。目的変数が数値のときにstratified_sampling(層別サンプリング)を使用すると、数値では割合毎に分けられないためエラーが出ます。

このようなエラーを避けるため、デフォルトではautomatic(自動モード)が選択されています。目的変数が数値のときは、自動でshuffled_sampling(シャッフルサンプリング)が行われます。

Cross Validationオペレータ

サンプリング方法 (sampling type)

linear_sampling(線形サンプリング)

shuffled_sampling(シャッフルサンプリング)

stratified_sampling(層別サンプリング)

automatic(自動モード)

関連記事