RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Create ExampleSet

概要

この演算子は、ユーザー指定の属性と例を含むExampleSetを作成します。さまざまなデータジェネレータータイプが利用可能です。

詳細

この演算子は、ユーザー指定の属性と例を含むExampleSetを作成します。さまざまなデータジェネレータータイプが利用可能です。現在サポートされているタイプは次のとおりです。

  • 属性関数:ユーザーは数式を使用して属性を定義し、作成するサンプルの数を指定します。これは、機能説明パラメーターを使用して構成でき、属性の生成演算子で使用される機能説明パラメーターに似ています。
  • 数値シリーズ:ユーザーは、数値シリーズ構成パラメーターを使用して、作成する数値シリーズ(線形、2次、指数など)を作成および構成する例の数を指定します。
  • 日付シリーズ:ユーザーは、作成するサンプルの数を指定し、日付シリーズ構成パラメーターを使用して、作成する日付シリーズを構成します。
  • カンマ区切りのテキスト:ユーザーは、csv textパラメーターの入力によって、カンマ区切りの値でテキスト入力を指定します。入力テキストはExampleSetに変換されます。

出力

  • 出力(IOObject)作成されたExampleSet。

パラメーター

  • generator_type ExampleSetを作成するジェネレーターのタイプ。
    • attribute_functions:関数の説明パラメーターを介して数式を使用することにより、新しいExampleSetの属性を作成できます。これは、属性の生成演算子で使用される関数記述パラメーターに似ています。このジェネレータータイプを構成するには、パラメーター数の例、関数の説明、およびid属性を使用できます。
    • numeric_series:新しいExampleSetの属性は、さまざまな種類の数値シリーズ(線形、2次、指数など)として作成できます。範囲(「startvalue」および「stopvalue」)または「startvalue」および「stepsize」のいずれかを使用できます。これにより「ベース」シリーズのみが定義され、シリーズタイプが「ベース」シリーズに適用されて結果の属性を生成する関数を定義することに注意してください。このジェネレータータイプを構成するために、サンプルのパラメーター数、ステップサイズの使用、およびシリーズの数値構成を使用できます。
    • date_series:新しいExampleSetの属性は、日付シリーズとして作成できます。日付範囲(「開始時間」と「終了時間」)、または「開始時間」と「間隔サイズ」が異なる「ステップサイズ」を使用できます。このジェネレータータイプを構成するには、例のパラメーター数、使用ステップサイズ、日付シリーズ構成、日付シリーズ構成(間隔)、および日付形式を使用できます。
    • comma_separated_text:新しいExampleSetは、コンマ区切り値でテキスト入力を提供することによって作成されます。最初の行は属性名として解釈され、他の行には値が含まれます。属性名はトリミングできます。 「すべてを名目として解析」パラメーターがtrueに設定されていない限り、属性のタイプが推測されます。このジェネレータータイプを構成するために、CSVテキスト、列区切り文字、名目上のすべてを解析、小数点文字、およびトリム属性のパラメーターを使用できます。

    範囲:

  • number_of_examples生成するサンプルの数。ジェネレータータイプに使用可能:属性関数、数値シリーズ、日付シリーズ。 範囲:
  • function_descriptions生成する関数のリスト。このパラメーターの使用方法の詳細については、属性の生成演算子のヘルプテキストを参照してください。ジェネレータータイプで使用可能:属性関数。 範囲:
  • add_id_attributeこのパラメーターがtrueに設定されている場合、追加の(数値)id属性が生成され、関数式で使用できます。この属性は式にリストされていないことに注意してください。属性の名前は「id」で、「id」ロールがあります。ジェネレータータイプで使用可能:属性関数。 範囲:
  • use_stepsizeこのパラメーターをtrueに設定すると、シリーズ生成で「開始値」と「ステップサイズ」が使用されます。このパラメーターがfalseに設定されている場合、「開始値」と「停止値」が使用されます。ジェネレータータイプに使用可能:数値シリーズ、データシリーズ。 範囲:
  • numeric_series_configuration生成する数値シリーズのリスト。リスト内のエントリごとに、属性が作成されます。設定 ‘min’および ‘max / stepsize’は、等距離の ‘ベース’シリーズxを定義します。 ‘type’設定は、新しい属性の値を生成するために ‘base’シリーズに適用される関数を定義します。設定例については、チュートリアルプロセス「Usage of the numeric_series generator」を参照してください。ジェネレータータイプに利用可能:numeric_series。
    • attribute_name:新しい属性の名前。
    • type:「ベース」シリーズに適用される関数。線形:x、2次:x ^ 2、平方根:sqrt(x)、10の累乗:10 ^ x、2の累乗:2 ^ x、Eの累乗:e ^ x、ln:ln(x)、log10 :log10(x)、log2:log2(x)。
    • min:「ベース」シリーズの開始値。
    • max/stepsize:パラメーター ‘use stepsize’がtrueの場合、このパラメーターは ‘base’シリーズxの2つのエントリ間のステップサイズを定義します。 falseの場合、このパラメーターは「ベース」シリーズのストップ値を定義します。シリーズには開始値と終了値が含まれます。

    範囲:

  • date_series_configuration生成する日付シリーズのリスト。リスト内のエントリごとに、属性が作成されます。 「開始日」および「終了日」の設定は、日付系列の範囲を定義します。両方の日付がシリーズに含まれています。間の日付値は等間隔で分布します。値はミリ秒レベルで等距離であることに注意してください。したがって、うるう日とうるう秒に応じて、値の差は年、日などの既知の時間単位と異なる場合があります。 ‘設定例。このパラメーターは、「use stepsize」パラメーターがtrueに設定されている場合に使用できます。 falseに設定されている場合、日付シリーズは、以下で説明する同様のパラメーターリストの日付シリーズ構成(間隔)によって構成されます。発電機タイプに利用可能:日付シリーズ。
    • attribute_name:新しい属性の名前。
    • start date:日付シリーズの開始日。入力は、「日付形式」パラメーターで指定された形式で解釈されます。
    • end date:日付シリーズの終了日。入力は、「日付形式」パラメーターで指定された形式で解釈されます。

    範囲:

  • date_series_configuration (interval)生成する日付シリーズのリスト。リスト内のエントリごとに、属性が作成されます。設定「開始日」、「ステップサイズ」、および「間隔タイプ」はシリーズを定義します。系列の値は「開始日」で始まり、「stepsize」倍の間隔値が各値に追加されます。設定例については、チュートリアルプロセス「日付シリーズジェネレーターの使用」を参照してください。このパラメーターは、「use stepsize」パラメーターがfalseに設定されている場合に使用できます。 trueに設定されている場合、日付シリーズは上記の類似したパラメーターリスト「日付シリーズ構成」によって構成されます。発電機タイプに利用可能:日付シリーズ。
    • attribute name:新しい属性の名前。
    • start date:日付シリーズの開始日。入力は、「日付形式」パラメーターで指定された形式で解釈されます。
    • stepsize:日付系列の各値について、前の値に追加される時刻は、stepsizeに ‘interval type’で指定された日付単位を掛けたものです。
    • interval type:シリーズの各値に追加する日付単位。年、月、週、日、時間、分、秒、ミリ秒

    範囲:

  • date_format 「開始日」および「終了日」パラメーターで使用される日付形式。発電機タイプに利用可能:日付シリーズ。 範囲:
  • input_csv_textコンマ区切り値でテキスト入力を指定します。最初の行は、属性の名前として解釈されます。残りの行は、属性の値として解釈され、「列区切り文字」で区切られます。デフォルトではこれは「、」ですが、「列区切り文字」パラメーターを使用して変更できます。パラメーター「すべてを名目として解析」がfalse(デフォルト)に設定されている場合、属性のタイプが推測されます。したがって、小数点に使用される文字は、パラメーター ‘decimal point character’(デフォルト: ‘。’)で指定できます。ジェネレータータイプで利用可能:カンマ区切りテキスト。 範囲:
  • column_separator入力テキストの列を区切るために演算子が使用する文字。ジェネレータータイプで利用可能:カンマ区切りテキスト。 範囲:
  • parse_all_as_nominalこのパラメーターがtrueに設定されている場合、属性のタイプ推測は実行されません。すべての属性は、タイプNOMINALに設定されます。 falseに設定されている場合、入力csvテキストが読み取られた後に属性のタイプが推測されます。行数によっては、これによりランタイムが長くなる可能性があります。ジェネレータータイプで利用可能:カンマ区切りテキスト。 範囲:
  • decimal_point_character 「名目上のすべてを解析」パラメーターがfalseに設定されている場合、型の推測では、このパラメーターで指定された文字が小数点として使用されます。ジェネレータータイプで利用可能:カンマ区切りテキスト。 範囲:
  • trim_attribute_namesこのパラメーターがtrueに設定されている場合、「入力csvテキスト」の属性名の先頭および末尾の空白が削除されます。ジェネレータータイプで利用可能:カンマ区切りテキスト。 範囲:

チュートリアルプロセス

attribute_functionsジェネレーターの使用

このチュートリアルプロセスでは、ジェネレータタイプ「attribute_functions」を使用してExampleSetを作成し、新しいExampleSetを生成します。属性の生成演算子と同じ式エディターを使用して、異なる属性が生成されます。演算子の「関数の説明」パラメーターのリストをご覧ください。

numeric_seriesジェネレーターの使用

このチュートリアルプロセスでは、ジェネレータータイプが「numeric_series」であるExampleSetの作成演算子を使用して、さまざまなExampleSetを生成します。 2つの演算子は、「基本」シリーズを構成する2つの異なるタイプを示します。他の2つの演算子は、より高度な構成を示しています。

date_seriesジェネレーターの使用

このチュートリアルプロセスでは、ジェネレータータイプ「date_series」のExampleSet作成演算子をいくつか使用して、さまざまなExampleSetを生成します。日付シリーズを構成する2つの異なるタイプが示されています。

カンマ区切りテキストジェネレーターの使用

このチュートリアルプロセスでは、ジェネレータータイプ「comma_separated_text」のCreate ExampleSet演算子をいくつか使用して、さまざまなExampleSetを生成します。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル