Generate Data

概要

この演算子は、数値属性に基づいてExampleSetを生成します。属性の数、例の数、属性の下限と上限、およびターゲット関数は、ユーザーが指定できます。

詳細

Generate Dataオペレーターは、 number of attributesパラメーターで制御される指定された数の数値属性を持つExampleSetを生成します。指定された数の通常属性に加えて、ラベル属性は、 ターゲット関数パラメーターによって選択された関数を適用することにより自動的に生成されることに注意してください。選択したターゲット関数が属性に適用され、ラベル属性が生成されます。例えば、属性パラメーターの数が 3に設定され、 ターゲット関数が「sum」に設定されている場合。次に、3つの通常の数値属性が作成されます。これらの通常の属性に加えて、ラベル属性が自動的に生成されます。ターゲット関数が「sum」に設定されているため、ラベル属性値は3つすべての通常の属性値の合計になります。

ラベルターゲット関数は、次のように計算されます（生成されたn個の属性を想定）。

random：ラベルはランダムに生成されます。
sum（少なくとも3つの属性が必要）：ラベルは引数の合計です：att1 + att2 + … + att [n]
polynomial （少なくとも3つの属性が必要）：att1 ^ 3 + att2 ^ 2 + att3
non linear（少なくとも3つの属性が必要）：att1 * att2 * att3 + att1 * att2 + att2 * att2
one variable non linear（1つの属性が必要）：3 * att1 ^ 3-att1 ^ 2 + 1000 / | att1 | + 2000 * | att1 |
complicated function（少なくとも3つの属性が必要）：att1 * att1 * att2 + att2 * att3 + max（att1、att2）-e ^ att3
complicated function2（少なくとも3つの属性が必要）：att1 * att1 * att1 + att2 * att2 + att1 * att2 + att1 / | att3 | -1 /（att3 * att3）
simple sinus（1属性が必要）：sin（att1）
sinus（2つの属性が必要）：sin（att1 * att2）+ sin（att1 + att2）
simple superposition（1つの属性が必要）：5 * sin（att1）+ sin（30 * att1）
sinus frequency（少なくとも2つの属性が必要）：10 * sin（3 * att1）+ 12 * sin（7 * att1）+ 11 * sin（5 * att2）+ 9 * sin（10 * att2）+ 10 * sin（ 8 *（att1 + att2））
sinus with trend（1属性が必要）：sin（att1）+ 0.1 * att1
sinc：sin（x）/ || x ||、|| x ||の場合0ではありません。それ以外の場合は0です。
triangular function（1つの属性が必要）：ラベルは引数の小数部分です。
square pulse function（1属性が必要）：ラベルは、属性の方形パルスです。
random classification：ラベルはランダムに「負」または「正」です。
one third classification：att1 <0.3333の場合、ラベルは「正」で、それ以外の場合は「負」です。
sum classification：すべての引数の合計が正の場合、ラベルは「正」、それ以外の場合は「負」です。
quadratic classification（少なくとも2つの属性が必要）：att2> att1 ^ 2の場合、ラベルは「正」で、それ以外の場合は「負」です。
simple non linear classification（少なくとも2つの属性が必要）：50 <att1 * att2 <80の場合、ラベルは「正」、それ以外の場合は「負」です。
interaction classification（少なくとも3つの属性が必要）：att1 <0またはatt2> 0およびatt3 <0の場合、ラベルは「正」、それ以外の場合は「負」です。
simple polynomial classification（少なくとも1つの属性が必要）：att1 ^ 4> 100の場合、ラベルは「正」で、それ以外の場合は「負」です。
polynomial classification（少なくとも4つの属性が必要）：att1 ^ 3 + att2 ^ 2-att3 ^ 2 + att4> 0の場合、ラベルは「正」、それ以外の場合は「負」。
checkerboard classification（2つの属性が必要）：ラベルは、チェッカーボードのパターンに応じて「正」または「負」であり、各タイルのサイズは5です。
random dots classification（2つの属性が必要）：2Dフィールド上に、ランダムなサイズで配置された正および負のドットが生成されます。例が正のドットでのみ含まれている場合、ラベルは「正」、それ以外の場合は「負」です。
global and local models classification（2つの属性が必要）：両方の引数の合計が正の場合、ラベルは「正」、それ以外の場合は「負」です。さらに、サイズの異なるいくつかのローカルパターンがデータ空間に配置されます。
sinus classification（少なくとも2つの属性が必要）：ラベルは、sin（att1 * att2）+ sin（att1 + att2）> 0の場合「正」、それ以外の場合「負」です。
multi classification：ラベルは、2を法とするすべての引数の合計が0の場合「1」、3を法とする合計が0の場合「2」、5を法とする合計が0の場合「3」、それ以外は「4」です。
two gaussians classification：2つのガウスクラスターを生成します。ラベルは「cluster0」または「cluster1」です。
transactions dataset（少なくとも5つの属性が必要）：関連付け関数トランザクションデータセットを生成します。すべての属性値は0または1です。最初の4つの属性は相関しています。ラベルは生成されません。
grid function数：与えられた次元で均一に分布したグリッドを生成します。値がゼロのラベルが生成されます。
three ring clusters（2つの属性が必要）：3つの同心リングクラスターを生成します。ラベルの値は、「core」、「first_ring」、および「second_ring」です。
spiral cluster（2つの属性が必要）：2つの連動するスパイラルクラスターを生成します。したがって、ラベル値は「spiral1」および「spiral2」です。
single gaussian cluster：ガウスクラスターを生成します。値がゼロのラベルが生成されます。
gaussian mixture clusters：ガウスクラスターの混合を生成します。各属性はクラスター量を2倍にするため、2 ^ nクラスターが生成されます。クラスターIDのラベルが生成されます。
driller oscillation timeseries（少なくとも2つの属性が必要）：（掘削プロセスからの実際のデータに基づいて）人工的な音声データセットを生成します。ラベルは生成されません。

出力

出力（IOObject）Generate Dataオペレーターは、このポートを介して配信される数値属性に基づいてExampleSetを生成します。メタデータもデータとともに配信されます。この出力は、Retrieveオペレーターの出力と同じです。

パラメーター

target_functionこのパラメーターは、ラベル属性を生成するためのターゲット関数を指定します。さまざまなオプションがあります。ユーザーはそれらのいずれかを選択できます。範囲：選択
number_examplesこのパラメーターは、生成されるサンプルの数を指定します。範囲：整数
number_of_attributesこのパラメーターは、生成される通常の属性の数を指定します。これらの通常の属性に加えて、 ラベル属性が自動的に生成されることに注意してください。範囲：整数
attributes_lower_boundこのパラメーターは、生成される属性の最小値を指定します。つまり、このパラメーターは、通常の属性の可能な値の範囲の下限を指定します。ガウス分布を使用するターゲット関数の場合、属性値はこの値を超える場合があります。範囲：実数
attributes_upper_boundこのパラメーターは、生成される属性の可能な最大値を指定します。つまり、このパラメーターは、通常の属性の可能な値の範囲の上限を指定します。ガウス分布を使用するターゲット関数の場合、属性値はこの値を超える場合があります。範囲：実数
gaussian_standard_deviationこのパラメーターは、属性の生成に使用されるガウス分布の標準偏差を指定します。範囲：実数
highest_radiusこのパラメーターは、最も外側のリングクラスターの半径を指定します。範囲：実数
use_local_random_seedこのパラメーターは、ランダム化にローカルランダムシードを使用する必要があるかどうかを示します。同じ値のローカルランダムシードを使用すると、同じExampleSetが生成されます。このパラメーターの値を変更すると、例のランダム化方法が変更されるため、ExampleSetには異なる値のセットが含まれます。範囲：ブール
local_random_seedこのパラメータは、 ローカルランダムシードを指定します。このパラメーターは、 ローカルシードの使用パラメーターがtrueに設定されている場合にのみ使用できます。範囲：整数
data_managementこれはエキスパートパラメータです。長いリストが提供されます。ユーザーはこのリストから任意のオプションを選択できます。範囲：選択

チュートリアルプロセス

データ生成演算子の概要

データの生成演算子は、ExampleSetの生成に適用されます。ターゲット関数パラメーターは「sum」に設定されているため、ラベル属性はすべての属性の値の合計になります。 number examplesパラメータは100に設定されているため、ExampleSetには100個のサンプルが含まれます。属性パラメーターの数は3に設定されているため、ラベル属性の横に3つの数値属性が生成されます。属性の下限パラメーターと属性の上限パラメーターはそれぞれ-10と10に設定されているため、通常の属性の値はこの範囲内になります。これを確認するには、結果ワークスペースで結果を表示します。この例のプロセスでは、use local random seedパラメータがfalseに設定されています。ローカルシードを使用するパラメータをtrueに設定し、ローカルランダムシードの異なる値でプロセスを実行します。ローカルランダムシードの値を変更すると、ランダム化が変更されることがわかります。