Replace Missing Values (Series)
概要
この演算子は、時系列の欠損値を置き換えます。
詳細
パラメーターreplace type numeric 、 replace typenominal 、 replace type date timeは、それぞれ時系列のタイプに使用される置換の種類を定義します。パラメーターは、 他の欠落をスキップし 、 無限を置換し、空の文字列を置換し 、 有限値ハンドルを保証します隣接する欠損値、正および負の無限大、空の文字列、およびシリーズの開始/終了時の欠損値の処理方法。 有限値がtrueに設定されている場合にのみ、置換後に系列に無効な値(欠損、正/負の無限大、空の文字列)が残っていないことを確認できることに注意してください。
この演算子は、すべての時系列(日付時刻値を含む数値、名義、および時系列)で機能します。
分化
Replace Missing Values
RapidMinerの標準の欠損値の置換演算子は、すべての欠損値を定数値に置き換えます。一方、この系列ベースの演算子は、コンテキストベースの欠損値を置き換えます。これは、隣接する値を考慮した選択されたルールに基づいて欠損値が置き換えられることを意味します。
入力
- サンプルセット (IOObject)時系列データを属性として含むExampleSet。
出力
- サンプルセット(IOObject)置換を適用した後のExampleSet。上書き属性の場合、元の時系列属性は上書きされますが、置き換えられた値を持つ新しい属性は追加されません。新しい属性の名前については、新しい属性postfixパラメーターで指定された後置が元の属性の名前に追加されます。他の属性は変更されません。
パラメーター
- attribute_filter_typeこのパラメーターを使用すると、時系列属性選択フィルターのフィルターを選択できます。時系列値を保持する属性を選択する方法。さまざまなフィルタータイプは次のとおりです。
- all:このオプションは、ExampleSetのすべての属性を時系列属性として選択します。これがデフォルトのオプションです。
- single:このオプションを使用すると、単一の時系列属性を選択できます。必須の属性は、属性パラメーターによって選択されます。
- subset:このオプションを使用すると、リストを介して複数の時系列属性を選択できます(パラメーター属性を参照)。 ExampleSetのメタデータがわかっている場合、すべての属性がリストに存在し、必要な属性を簡単に選択できます。
- regular_expression:このオプションにより、時系列属性選択用の正規表現を指定できます。正規表現フィルターは、正規表現パラメーターによって構成されます。excessexpressionおよびexcept expressionを使用します。
- value_type:このオプションにより、特定のタイプのすべての属性を選択して時系列属性にすることができます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。値タイプフィルターは、パラメーター値タイプによって構成されます。値タイプを除く値タイプ例外を使用します。
- block_type:このオプションにより、特定のブロックタイプのすべての属性を選択して時系列属性にすることができます。ブロックタイプは階層的であることに注意する必要があります。たとえば、value_series_startおよびvalue_series_endブロックタイプは両方ともvalue_seriesブロックタイプに属します。ブロックタイプフィルターは、パラメーターブロックタイプによって構成され、ブロックタイプを除くブロックタイプ例外を使用します。
- no_missing_values:このオプションは、ExampleSetのすべての属性を、どの例でも欠損値を含まない時系列属性として選択します。欠損値が1つでもある属性は選択されません。
- numeric_value_filter:例がすべて所定の数値条件に一致するすべての数値属性が、時系列属性として選択されます。条件は、数値条件パラメーターによって指定されます。
範囲:
- attribute必要な属性は、このオプションから選択できます。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。範囲:
- attributes必要な属性は、このオプションから選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性が左側のリストにあります。これらは、選択した時系列属性のリストである右側のリストに移動できます。範囲:
- regular_expression
この式に名前が一致する属性が選択されます。式は、 正規表現の編集およびプレビューメニューで指定できます。このメニューは、正規表現の良いアイデアを提供します。また、異なる表現を試して結果を同時にプレビューすることもできます。範囲: - use_except_expression有効にすると、最初の正規表現の例外を指定できます。この例外は、 except regular expressionパラメーターによって指定されます。範囲:
- except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この表現に一致する属性は、最初の表現( 正規表現パラメーターで指定された表現 )に一致する場合でも除外されます。範囲:
- value_typeこのオプションにより、属性のタイプを選択できます。範囲:
- use_value_type_exception有効にすると、選択したタイプの例外を指定できます。この例外は、 except value typeパラメーターによって指定されます。範囲:
- except_value_typeこのタイプに一致する属性は、 value typeパラメーターで指定された前に選択されたタイプと一致した場合でも、最終出力から削除されます。範囲:
- block_typeこのオプションを使用すると、属性のブロックタイプを選択できます。範囲:
- use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。この例外は、 except block typeパラメーターによって指定されます。範囲:
- except_block_typeこのブロックタイプに一致する属性は、 ブロックタイプパラメータによって選択された前のタイプと一致した場合でも、最終出力から削除されます。範囲:
- numeric_condition数値条件フィルタータイプで使用される数値条件。すべての例がこの属性に指定された条件に一致する場合、数値属性が選択されます。たとえば、数値条件「> 6」は、すべての例で6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし、&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。範囲:
- invert_selectionこのパラメーターをtrueに設定すると、選択が逆になります。その場合、指定された条件に一致しないすべての属性が時系列属性として選択されます。 include特殊属性パラメーターがtrueに設定されていないため、 反転選択パラメーターとは無関係に特殊属性は選択されません。その場合、条件は特別な属性にも適用され、このパラメーターがチェックされている場合は選択が逆になります。範囲:
- include_special_attributes特別な属性は、特別な役割を持つ属性です。これらは、ID、ラベル、予測、クラスター、重量、バッチです。また、カスタムロールを属性に割り当てることができます。デフォルトでは、フィルター条件に関係なく、特別な属性は時系列属性として選択されません。このパラメーターがtrueに設定されている場合、指定された条件に対して特別な属性もテストされ、条件に一致する属性が選択されます。範囲:
- has_indicesこのパラメーターは、時系列に関連付けられたインデックス属性があるかどうかを示します。このパラメーターがtrueに設定されている場合、インデックス属性を選択する必要があります。範囲:
- indexs_attributeパラメーターのインデックスがtrueに設定されている場合、このパラメーターは関連するインデックス属性を定義します。日付、date_time、または数値タイプの属性のいずれかです。メタデータがわかっている場合は、パラメーターのドロップダウンボックスから属性名を選択できます。範囲:
- overwrite_attributesこのパラメーターは、元の時系列属性が結果の時系列で上書きされるかどうかを示します。このパラメーターがfalseに設定されている場合、結果の新しい時系列は、新しい属性としてExampleSetに追加されます。これらの新しい属性の名前は、後置記号が追加された元の時系列の名前になります。接尾辞は、パラメーターnew attributes postfixによって指定されます。範囲:
- new_attributes_postfix属性の上書きがfalseの場合、このパラメーターは、新しい属性名を作成するために元の時系列の名前に追加される接尾辞を指定します。範囲:
- replace_type_numerical数値時系列の欠損値を置き換えるために使用される置換の種類。
- 前の値:シリーズの前の値が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて、最初の以前の有効な値に置き換えられます。パラメータで有限値がtrueに設定されていることを確認しない限り、シリーズの先頭の欠損値は置き換えられません。次の有効な値が置換として使用されます。
- 次の値:系列の次の値が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて次の有効な値に置き換えられます。パラメータによって有限値がtrueに設定されていることを確認しない限り、シリーズの最後の欠損値は置き換えられません。最初の以前の有効な値が置換として使用されます。
- 平均:系列の隣接値の平均が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて、隣接する有効な値の平均で置き換えられます。パラメータによって有限値がtrueに設定されていることを確認しない限り、シリーズの開始および終了の欠損値は置き換えられません。次よりも、それぞれ前の有効な値が置換として使用されます。
- 線形補間:系列の2つの隣接値間の線形補間(インデックス属性のインデックス値を使用)を使用して、置換値が計算されます。パラメータskip other missingsがtrueに設定されている場合、次の隣接する有効な値が線形補間を実行するために使用され、すべての欠落値は線形補間によって計算された置換値に置き換えられます(インデックス属性のインデックス値を使用)。パラメータによって有限値がtrueに設定されていることを確認しない限り、シリーズの開始および終了の欠損値は置き換えられません。次よりも、それぞれ前の有効な値が置換として使用されます。
- 値:欠損値はすべて、replace value数値パラメーターで指定された定数値に置き換えられます。
範囲:
- replace_type_nominal名目時系列の欠損値を置換するために使用される置換の種類。
- 前の値:シリーズの前の値が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて、最初の以前の有効な値に置き換えられます。パラメータで有限値がtrueに設定されていることを確認しない限り、シリーズの先頭の欠損値は置き換えられません。次の有効な値が置換として使用されます。
- 次の値:系列の次の値が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて次の有効な値に置き換えられます。パラメータによって有限値がtrueに設定されていることを確認しない限り、シリーズの最後の欠損値は置き換えられません。最初の以前の有効な値が置換として使用されます。
- 値:すべての欠損値は、replace valueノミナルパラメーターで指定された定数値に置き換えられます。
範囲:
- replace_type_date_time時系列の欠損値を日付時刻値で置き換えるために使用される置換の種類(これは、 インデックス属性には使用されません)
- 前の値:シリーズの前の値が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて、最初の以前の有効な値に置き換えられます。パラメータで有限値がtrueに設定されていることを確認しない限り、シリーズの先頭の欠損値は置き換えられません。次の有効な値が置換として使用されます。
- 次の値:系列の次の値が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて次の有効な値に置き換えられます。パラメータによって有限値がtrueに設定されていることを確認しない限り、シリーズの最後の欠損値は置き換えられません。最初の以前の有効な値が置換として使用されます。
- 平均:系列の隣接値の平均が置換として使用されます。パラメーターが他の欠損値をスキップするように設定されている場合、隣接する欠損値はすべて、隣接する有効な値の平均で置き換えられます。パラメータによって有限値がtrueに設定されていることを確認しない限り、シリーズの開始および終了の欠損値は置き換えられません。次よりも、それぞれ前の有効な値が置換として使用されます。
- 線形補間:系列の2つの隣接値間の線形補間(インデックス属性のインデックス値を使用)を使用して、置換値が計算されます。パラメータskip other missingsがtrueに設定されている場合、次の隣接する有効な値が線形補間を実行するために使用され、すべての欠落値は線形補間によって計算された置換値に置き換えられます(インデックス属性のインデックス値を使用)。パラメータによって有限値がtrueに設定されていることを確認しない限り、シリーズの開始および終了の欠損値は置き換えられません。次よりも、それぞれ前の有効な値が置換として使用されます。
- 値:欠損値はすべて、値の置き換え日時パラメーターで指定された定数値に置き換えられます。
範囲:
- replace_value_numerical replace type numerical が 値に設定されている場合は、このパラメータは、数値の時系列のすべての欠落値の置換値を指定します。範囲:
- replace_value_nominal replace type nominal が値に設定されている場合、このパラメーターは名目時系列のすべての欠損値の置換値を指定します。範囲:
- replace_value_date_time replace type date timeが値に設定されている場合、このパラメーターは、日時値を持つ時系列のすべての欠落値の置換値を指定します。範囲:
- skip_other_missingsこのパラメーターがtrueに設定されている場合、欠落している他の近隣の値は、置換値の決定のために考慮されません。このパラメーターがfalseに設定され、置換値も欠損値になる場合(たとえば、 数値の置換タイプが次の値で、次の値が欠損する場合)、欠損値は置換されません。範囲:
- replace_infinityこのパラメーターをtrueに設定すると、数値の時系列で正および負の無限大値も置き換えられます。そうでない場合、それらは有効な値として扱われ、置換されず、欠損値の置換値の決定で考慮されません(たとえば、 置換タイプの数値は平均で 、1つの隣接値は正の無限大です。置換値も正の無限大です)。範囲:
- replace_empty_stringsこのパラメーターがtrueに設定されている場合、空の文字列も名目上の時系列で置き換えられます。そうでなければ、それらは有効な値として扱われ、置換されず、欠損値の置換値の決定で考慮されます(例えば、 置換タイプ名義は次の値であり、次の値は空の文字列です、置換値も空の文字列です) )。範囲:
- ensure_finite_valuesこのパラメーターがtrueに設定されている場合、オペレーターは、置換後に無効な値(欠損、正/負の無限大、空の文字列)がシリーズに残らないようにします。パラメーターは他の 欠落を スキップし 、 無限を置き換え、空の文字列を置き換えると、自動的にtrueに設定されます。また、シリーズの開始/終了の無効な値が有効な値に置き換えられることも保証されます。詳細については、さまざまな置換タイプの説明を参照してください。範囲:
チュートリアルプロセス
Lake Huronデータセットの欠損値の置換
このチュートリアルプロセスでは、ヒューロン湖のデータセットの一部の値(値の10%)をランダムに欠損値に設定しました。欠損値の置換(シリーズ)演算子を使用して、それらを再度置換します。 1つの置換演算子は置換タイプとして次の値を使用し、もう1つは線形補間を使用しています。結果ビューを見て、置換の適用を調査してください。