RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Split Data

概要

この演算子は、指定されたExampleSetの必要な数のサブセットを生成します。 ExampleSetは、指定された相対サイズに従ってサブセットに分割されます。

詳細

データの分割演算子は、ExampleSetを入力として受け取り、そのExampleSetのサブセットを出力ポートを介して配信します。サブセット(またはパーティション)の数と各パーティションの相対サイズは、 partitionsパラメーターで指定します。すべてのパーティションの比率の合計は1である必要があります。 サンプリングタイプパラメーターは、結果のパーティションでサンプルをシャッフルする方法を決定します。この演算子の詳細については、この説明のパラメーターセクションをご覧ください。この演算子は、特定のExampleSetの複数のパーティションを配信できるという意味で、他のサンプリング演算子やフィルタリング演算子とは異なります。

入力

  • サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。

出力

  • パーティション(IOObject)このオペレーターは、複数のパーティションポートを持つことができます。有用なパーティションポートの数は、このオペレーターが生成するように構成されているパーティション(またはサブセット)の数によって異なります。 partitionsパラメーターは、必要なパーティション数を指定するために使用されます。

パラメーター

  • partitionsこれは、この演算子の最も重要なパラメーターです。パーティションの数と各パーティションの相対比率を指定します。ユーザーは、すべてのパーティションの比率を指定するだけです。必要なパーティションの数は、このパラメーターで指定された比率の数によって自動的に計算されるため、ユーザーが明示的に指定することはありません。比率は0〜1の間である必要があります。すべての比率の合計は1である必要があります。このパラメーターをよりよく理解するには、添付のプロセス例をご覧ください。 範囲:列挙
  • sampling_typeデータの分割演算子は、サブセットの構築にいくつかのタイプのサンプリングを使用できます。次のオプションが利用可能です。
    • 線形サンプリング:線形サンプリングは、例の順序を変更せずに、単にExampleSetをパーティションに分割します。つまり、例が連続するサブセットが作成されます。
    • シャッフルサンプリング:シャッフルサンプリングは、ExampleSetのランダムなサブセットを構築します。例は、サブセットを作成するためにランダムに選択されます。
    • 階層化サンプリング:階層化サンプリングはランダムなサブセットを構築し、サブセット内のクラス分布がExampleSet全体と同じであることを保証します。たとえば、二項分類の場合、層化サンプリングでは、各サブセットにクラスラベルの2つの値のほぼ同じ割合が含まれるように、ランダムなサブセットが構築されます。
    • 自動:ラベルが名義の場合は層別サンプリングを使用し、それ以外の場合はシャッフルサンプリングを使用します。

    範囲:選択

  • use_local_random_seedサブセットの例をランダム化するためにローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じサブセットが生成されます。このパラメーターの値を変更すると、サンプルのランダム化方法が変更されるため、サブセットには異なるサンプルセットが含まれます。このパラメーターは、シャッフルサンプリングまたは成層サンプリングが選択されている場合にのみ使用できます。ランダムサンプリングを必要としないため、線形サンプリングには使用できません。例は順番に選択されます。 範囲:ブール
  • local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。 範囲:整数

チュートリアルプロセス

データの分割演算子を使用したゴルフデータセットのパーティションの作成

「ゴルフ」データセットは、検索演算子を使用してロードされます。 Generate ID演算子が適用されているため、サンプルを一意に識別できます。ここにブレークポイントが挿入されるので、データの分割演算子を適用する前にExampleSetを確認できます。 ExampleSetにはid属性によって一意に識別できる14の例があることがわかります。例のIDは1〜14です。次に、データの分割演算子が適用されます。サンプリングタイプパラメーターは「線形サンプリング」に設定されます。パーティションパラメーターは、比率がそれぞれ0.8と0.2の2つのパーティションを生成するように構成されています。パーティションは、結果ワークスペースで確認できます。各パーティションの例の数は、次の式で計算されます。

(例の総数)/(比率の合計)*このパーティションの比率

回答が10進数の場合、四捨五入されます。各パーティションの例の数は次のようになります:(14)/(0.8 + 0.2)*(0.8)= 11.2(これは11(14)/(0.8 + 0.2)*(0.2)= 2.8に丸められます) 3に四捨五入

比率の合計が1になるように比率を調整することをお勧めします。ただし、比率の合計が1より小さいか大きい場合にもこの演算子は機能します。たとえば、比率1.0と0.4で2つのパーティションが作成される場合です。結果のパーティションは次のように計算されます:(14)/(1.0 + 0.4)*(1.0)= 10(14)/(1.0 + 0.4)*(0.4)= 4

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル