RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Extract Aggregates

概要

この演算子は、1つ以上の時系列の集計値のセットを計算します。

詳細

この演算子は、1つ以上の時系列の値の分布の記述的特徴(合計、平均、最小、最大など)を計算します。計算された機能は、オペレーターの機能出力ポートでExampleSetとして提供されます

時系列名を追加するパラメーターに応じて、ExampleSetには時系列と機能のすべての組み合わせの属性を持つ1つの例、またはn個の例(時系列ごとに1つの例)があります。計算される特徴は個別に選択できます。 Process Windowsオペレーターと組み合わせて、このオペレーターを使用して、一般的な機械学習問題の準備として時系列のウィンドウの特徴を計算できます。

デフォルトでは、無効な値(欠損、正の無限大、負の無限大)が集計値の計算に含まれます。個々の機能の計算が無効な値を処理する方法については、パラメーターの説明を参照してください。これを変更するには無効な値無視するパラメーターを選択し、 無効な値は無視します。

この演算子は、数値時系列でのみ機能します。

入力

  • サンプルセット (IOObject)時系列データを属性として含むExampleSet。

出力

  • 機能(IOObject)属性として計算された集計を含むExampleSet。時系列名を追加するパラメーターに応じて、ExampleSetには時系列と機能のすべての組み合わせの属性を持つ1つの例、またはn個の例(時系列ごとに1つの例)があります。
  • オリジナル(IOObject)入力として与えられたExampleSetは、変更なしでパススルーされます。

パラメーター

  • attribute_filter_typeこのパラメーターを使用すると、時系列属性選択フィルターのフィルターを選択できます。時系列値を保持する属性を選択する方法。時系列属性として選択できるのは数値属性のみです。さまざまなフィルタータイプは次のとおりです。
    • all:このオプションは、ExampleSetのすべての属性を時系列属性として選択します。これがデフォルトのオプションです。
    • single:このオプションを使用すると、単一の時系列属性を選択できます。必須の属性は、属性パラメーターによって選択されます。
    • subset:このオプションを使用すると、リストを介して複数の時系列属性を選択できます(パラメーター属性を参照)。 ExampleSetのメタデータがわかっている場合、すべての属性がリストに存在し、必要な属性を簡単に選択できます。
    • regular_expression:このオプションにより、時系列属性選択用の正規表現を指定できます。正規表現フィルターは、正規表現パラメーターによって構成されます。excessexpressionおよびexcept expressionを使用します。
    • value_type:このオプションにより、特定のタイプのすべての属性を選択して時系列属性にすることができます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。値タイプフィルターは、パラメーター値タイプによって構成されます。値タイプを除く値タイプ例外を使用します。
    • block_type:このオプションにより、特定のブロックタイプのすべての属性を選択して時系列属性にすることができます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。ブロックタイプフィルターは、パラメーターブロックタイプによって構成され、ブロックタイプを除くブロックタイプ例外を使用します。
    • no_missing_values:このオプションは、ExampleSetのすべての属性を、どの例でも欠損値を含まない時系列属性として選択します。欠損値が1つでもある属性は選択されません。
    • numeric_value_filter:例がすべて所定の数値条件に一致するすべての数値属性が、時系列属性として選択されます。条件は、数値条件パラメーターによって指定されます。

    範囲:

  • attribute必要な属性は、このオプションから選択できます。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。範囲:
  • attributes必要な属性は、このオプションから選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性が左側のリストにあります。これらは、選択した時系列属性のリストである右側のリストに移動できます。範囲:
  • regular_expressionこの式に名前が一致する属性が選択されます。式は、 正規表現の編集およびプレビューメニューで指定できます。このメニューは、正規表現の良いアイデアを提供します。また、異なる表現を試して結果を同時にプレビューすることもできます。範囲:
  • use_except_expression有効にすると、最初の正規表現の例外を指定できます。この例外は、 except regular expressionパラメーターによって指定されます。範囲:
  • except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の表現( 正規表現パラメーターで指定された表現 )に一致する場合でも除外されます。範囲:
  • value_typeこのオプションにより、属性のタイプを選択できます。次のタイプのいずれかを選択できます:数値、整数、実数。範囲:
  • use_value_type_exception有効にすると、選択したタイプの例外を指定できます。この例外は、 except value typeパラメーターによって指定されます。範囲:
  • except_value_typeこのタイプに一致する属性は、 value typeパラメーターで指定された前に選択されたタイプと一致した場合でも、最終出力から削除されます。ここでは、数値、整数、実数のいずれかのタイプを選択できます。範囲:
  • block_typeこのオプションを使用すると、属性のブロックタイプを選択できます。次のタイプのいずれかを選択できます:value_series、value_series_start、value_series_end。範囲:
  • use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。この例外は、 except block typeパラメーターによって指定されます。範囲:
  • except_block_typeこのブロックタイプに一致する属性は、 ブロックタイプパラメータによって選択された前のタイプと一致した場合でも、最終出力から削除されます。ここでは、value_series、value_series_start、value_series_endのいずれかのブロックタイプを選択できます。範囲:
  • numeric_condition数値条件フィルタータイプで使用される数値条件。すべての例がこの属性に指定された条件に一致する場合、数値属性が選択されます。たとえば、数値条件「> 6」は、すべての例で6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。範囲:
  • invert_selectionこのパラメーターをtrueに設定すると、選択が逆になります。その場合、指定された条件に一致しないすべての属性が時系列属性として選択されます。 include特殊属性パラメーターがtrueに設定されていないため、 反転選択パラメーターとは無関係に特殊属性は選択されません。その場合、条件は特別な属性にも適用され、このパラメーターがチェックされている場合は選択が逆になります。範囲:
  • include_special_attributes特別な属性は、特別な役割を持つ属性です。これらは、ID、ラベル、予測、クラスター、重量、バッチです。また、カスタムロールを属性に割り当てることができます。デフォルトでは、フィルター条件に関係なく、特別な属性は時系列属性として選択されません。このパラメーターがtrueに設定されている場合、指定された条件に対して特別な属性もテストされ、条件に一致する属性が選択されます。範囲:
  • add_time_series_nameこのパラメーターをtrueに設定すると、時系列属性の名前がプレフィックスとして機能属性の名前に追加されます。結果のExampleSetには、1つの例とn個の属性があり、n = <時系列の数> x <機能の数>です。このパラメーターがfalseに設定されている場合、 time seriesという名前の追加属性が時系列の名前とともに追加されます。結果のExampleSetには、n = <時系列の数>およびm = <機能の数>のn個の例とm + 1属性が含まれます。 時系列属性の役割はidに設定されます。範囲:
  • sumこのパラメーターがtrueに設定されている場合、時系列の値の合計が計算されます。無効な値が無視されない場合、時系列値が欠落していると合計は欠落します。時系列に少なくとも1つの正/負の無限大値がある場合、合計は正/負の無限大です。時系列に正と負の無限大の値がある場合、合計は失われます。範囲:
  • meanこのパラメーターがtrueに設定されている場合、時系列の値の平均が計算されます。無効な値が無視されない場合、正または負の無限大の時系列値が欠落していると、平均は欠落します。範囲:
  • geometric_meanこのパラメーターをtrueに設定すると、時系列の値の幾何平均が計算されます。無効な値が無視されない場合、時系列値が欠落しているか負の無限大であれば幾何平均は欠落しています。時系列に少なくとも1つの正の無限大値がある場合、幾何平均は正の無限大です。範囲:
  • first_quartileこのパラメーターをtrueに設定すると、時系列の値の最初の四分位が計算されます。無効な値が無視されない場合、これらの値は、最初の四分位数を決定するための有限値と同じ方法でリストされます。範囲:
  • medianこのパラメーターがtrueに設定されている場合、時系列の値の中央値が計算されます。無効な値が無視されない場合、これらの値は中央値を決定するための有限値と同じ方法でリストされます。範囲:
  • third_quartileこのパラメーターがtrueに設定されている場合、時系列の値の3番目の四分位が計算されます。無効な値が無視されない場合、これらの値は、3番目の四分位数の決定のための有限値と同じ方法でリストされます。範囲:
  • minこのパラメーターがtrueに設定されている場合、時系列の値の最小値が計算されます。無効な値が無視されない場合、負および正の無限大が最小値​​の決定に考慮されますが、欠損値は無視されます。範囲:
  • maxこのパラメーターがtrueに設定されている場合、時系列の値の最大値が計算されます。無効な値が無視されない場合、最大値の決定には負および正の無限大が考慮されますが、欠損値は無視されます。範囲:
  • std_deviationこのパラメーターがtrueに設定されている場合、時系列の値の標準偏差が計算されます。無効な値が無視されない場合、正または負の無限大の時系列値が欠落していると、標準偏差は欠落します。範囲:
  • kurtosisこのパラメーターがtrueに設定されている場合、時系列の値の尖度が計算されます。無効な値が無視されない場合、正または負の無限大の時系列値が欠落していると尖度が欠落します。範囲:
  • skewnessこのパラメーターがtrueに設定されている場合、時系列の値の歪度が計算されます。無効な値が無視されない場合、正または負の無限大の時系列値が欠落していると尖度が欠落します。範囲:
  • ignore_invalid_valuesこのパラメーターがtrueに設定されている場合、無効な値(欠損、正および負の無限大)は、フィーチャの計算で無視されます。範囲:

チュートリアルプロセス

ヒューロン湖のデータセットの集計抽出

このチュートリアルプロセスでは、ヒューロン湖の湖面の合計、平均、最小、および最大が計算されます。

ヒューロン湖のデータセットのウィンドウの集計抽出

このチュートリアルのプロセスでは、Process Windowsオペレーターを使用して、Huron Lakeデータセットのサイズ30のウィンドウをループします。ウィンドウごとに、集計集計演算子を使用して、ウィンドウの一部の機能を計算します。計算された機能は、内部サブプロセスの出力ポートに提供されます。パラメーターが地平線を作成し(ラベル)、ウィンドウ属性に最後のインデックスを追加する属性がtrueに設定され、地平線の値を保持する属性(地平線の幅が1であるため)と最後の日付を保持する属性(時系列のインデックス属性)ウィンドウ内のExampleSet機能に追加されます。

追加演算子は、すべてのウィンドウの機能を1つのExampleSetに追加するために使用されます。これは、機械学習モデルのトレーニングに使用できます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル