Fill Data Gaps
概要
この演算子は、ギャップに新しい例を追加することにより、指定されたExampleSetのギャップを(ID属性に基づいて)埋めます。新しい例にはnull値が含まれます。
詳細
Fill Data Gapsオペレーターは、ギャップに新しい例を追加することにより、指定されたExampleSetのギャップを(ID属性のギャップに基づいて)埋めます。新しい例では、すべての属性(id属性を除く)にnull値が含まれます。これは、欠損値の置換演算子などの演算子で補充できます。 ID属性は整数型であることが理想的です。この演算子は次の手順を実行します。
- データはID属性に従ってソートされます
- 連続するID値間のすべての発生距離が計算されます。
- すべての距離の最大公約数(GCD)が計算されます。
- GCDの倍数であるが欠落しているID値を持つすべての行は、データセットに追加されます。
入力
- サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のサブプロセス演算子の出力です。他の演算子の出力も入力として使用できます。メタデータで属性が指定されているため、入力用のデータにメタデータを添付する必要があります。
出力
- 設定出力の例(IOObject)ExampleSetのギャップは新しい例で埋められ、結果のExampleSetはこのポートの出力です。
- オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
パラメーター
- use_gcd_for_step_sizeこのパラメーターは、最大公約数(GCD)を計算し、すべてのデータポイント間の基本距離として使用する必要があるかどうかを示します。 範囲:ブール
- step_sizeこのパラメーターは、ステップサイズにuse gcdパラメーターがfalseに設定されている場合にのみ使用できます。このパラメーターは、ギャップを埋めるために使用されるステップサイズを指定します。 範囲:整数
- startこのパラメーターは、最初のデータポイントの前(開始する場合)にギャップを埋めるために使用できます。所与ExampleSetのID属性は3で始まり、 開始パラメータが1に設定されている場合、例えば、このオペレータは、IDS 1,2 範囲の行を追加することによって、最初のギャップを充填する整数
- endこのパラメータは、最後のデータポイントの後の最後のギャップを埋めるために使用できます(ギャップが発生した場合)。たとえば、指定されたExampleSetのID属性が100で終了し、 endパラメータが105に設定されている場合、この演算子はID 101〜105の行を追加することにより、最後のギャップを埋めます。
チュートリアルプロセス
データギャップを埋める演算子の概要
このサンプルプロセスは、ExampleSetを配信するSubprocessオペレーターで始まります。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。 ExampleSetには10個の例があることがわかります。 ExampleSetのid属性をご覧ください。特定のIDが欠落していることがわかります。ID3、6、8、10。Fill Data GapsオペレーターがこのExampleSetに適用され、これらのデータギャップを適切なIDを持つサンプルで埋めます。結果ワークスペースで結果のExampleSetを確認できます。このExampleSetには14の例があることがわかります。 ID 3、6、8、および10の新しい例が追加されました。ただし、これらの例には、すべての属性(id属性を除く)の欠損値があり、欠損値の置換演算子などの演算子を使用して補充できます。