RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Nominal to Numerical

概要

この演算子は、選択された非数値属性のタイプを数値タイプに変更します。また、これらの属性のすべての値を数値にマップします。

詳細

数値から数値への演算子は、非数値属性のタイプを数値タイプに変更するために使用されます。この演算子は、選択した属性のタイプを変更するだけでなく、これらの属性のすべての値を数値にマッピングします。 バイナリ属性値は0と1にマッピングされます。ExampleSetの入力の数値属性は変更されません。この演算子は、名義から数値への変換用に3つのモードを提供します。このモードは、 コーディングタイプパラメーターによって選択されます。これらのコーディングタイプの説明はパラメーターに記載されており、プロセス例でも説明されています。

入力

  • サンプルセット (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。メタデータには属性が指定されているため、メタデータには入力用のデータを添付する必要があります。 Retrieveオペレーターは、メタデータとデータを提供します。 ExampleSetには、非数値属性が少なくとも1つ必要です。そのような属性がない場合、この演算子の使用は意味をなさないためです。

出力

  • サンプルセット(IOObject)選択された非数値属性が数値型に変換されたExampleSetは、このポートの出力です。
  • オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
  • 前処理モデル(前処理モデル)このポートは、現在のプロセスにおけるこのオペレーターのパラメーターに関する情報を含む前処理モデルを提供します。

パラメーター

  • create_view基礎となるデータを変更する代わりに、ビューを作成することが可能です。このパラメータを選択して、このオプションを有効にします。通常、データに対して直接実行される変換は、値が要求されるたびに計算され、データを変更せずに結果が返されます。 範囲:ブール
  • attribute_filter_typeこのパラメーターを使用すると、属性選択フィルターを選択できます。名義から数値への変換を適用する属性を選択するために使用する方法。次のオプションがあります。
    • all:このオプションは、単にExampleSetのすべての属性を選択します。これがデフォルトのオプションです。
    • single:このオプションでは、単一の属性を選択できます。このオプションを選択すると、別のパラメーター(属性)がパラメーターパネルに表示されます。
    • subset:このオプションを使用すると、リストから複数の属性を選択できます。 ExampleSetのすべての属性がリストに存在します。必要な属性は簡単に選択できます。メタデータが不明な場合、このオプションは機能しません。このオプションを選択すると、別のパラメーターがパラメーターパネルに表示されます。
    • regular_expression:このオプションを使用すると、属性選択用の正規表現を指定できます。このオプションを選択すると、他のパラメーター(正規表現、式以外の使用)がパラメーターパネルに表示されます。
    • value_type:このオプションを使用すると、特定のタイプのすべての属性を選択できます。型は階層的であることに注意してください。たとえば、実数型と整数型は両方とも数値型に属します。このオプションを使用して属性を選択する場合、ユーザーは型階層の基本的な理解が必要です。このオプションを選択すると、他のパラメーター(値タイプ、値タイプの例外を使用)がパラメーターパネルに表示されます。
    • block_type:このオプションは、値タイプのオプションと機能が似ています。このオプションにより、特定のブロックタイプのすべての属性を選択できます。このオプションを選択すると、他のいくつかのパラメーター(ブロックタイプ、ブロックタイプの例外を使用)がパラメーターパネルに表示されます。
    • no_missing_values:このオプションは、どの例でも欠損値を含まないExampleSetのすべての属性を選択するだけです。欠損値が1つでもある属性は削除されます。
    • numeric value filter:このオプションを選択すると、パラメーターパネルに別のパラメーター(数値条件)が表示されます。すべての例が前述の数値条件を満たすすべての数値属性が選択されます。指定された数値条件に関係なく、すべての名義属性も選択されることに注意してください。

    範囲:選択

  • attributeこのオプションから目的の属性を選択できます。メタデータがわかっている場合は、 属性パラメーターのドロップダウンボックスから属性名を選択できます。 範囲:文字列
  • attributesこのオプションから必要な属性を選択できます。これにより、2つのリストを含む新しいウィンドウが開きます。すべての属性は左側のリストにあり、右側のリストに移動できます。右側のリストは、名義から数値への変換が行われる選択された属性のリストです。他のすべての属性は変更されません。 範囲:文字列
  • regular_expressionこの式と名前が一致する属性が選択されます。正規表現は非常に強力なツールですが、初心者には詳細な説明が必要です。正規表現の編集およびプレビューメニューから正規表現を指定することは常に有効です。このメニューは、正規表現の良いアイデアを提供します。このメニューでは、異なる表現を試して、結果を同時にプレビューすることもできます。これにより、正規表現の概念が強化されます。 範囲:文字列
  • use_except_expression有効にすると、選択したタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( 値のタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
  • except_regular_expressionこのオプションを使用すると、正規表現を指定できます。この式に一致する属性は、最初の式( 正規表現パラメーターで指定された )に一致する場合でも除外されます。 範囲:文字列
  • value_type選択する属性のタイプは、ドロップダウンリストから選択できます。次のタイプのいずれかを選択できます:名義、テキスト、二項、多項式、ファイルパス。 範囲:選択
  • use_value_type_exception有効にすると、選択したタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( 値のタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
  • except_value_typeこの型に一致する属性は、前述の型、つまり値型パラメーターの値に一致した場合でも、最終出力から削除されます。ここでは、nominal、text、binominal、polynominal、file_pathのいずれかのタイプを選択できます。 範囲:選択
  • block_type選択する属性のブロックタイプは、ドロップダウンリストから選択できます。ここで可能な値は「single_value」のみです。範囲:選択
  • use_block_type_exception有効にすると、選択したブロックタイプの例外を指定できます。このオプションを選択すると、別のパラメーター( ブロックタイプを除く )がパラメーターパネルに表示されます。 範囲:ブール
  • except_block_typeこのブロックタイプに一致する属性は、前述のブロックタイプに一致した場合でも、最終出力から削除されます。 範囲:選択
  • numeric_condition数値属性の例をテストするための数値条件をここで指定します。たとえば、数値条件「> 6」は、すべての例ですべての名義属性と6より大きい値を持つすべての数値属性を保持します。条件の組み合わせが可能です: ‘> 6 && <11’または ‘<= 5 || <0 ‘。しかし&&および|| 1つの数値条件で一緒に使用することはできません。 ‘(> 0 && <2)のような条件|| (> 10 && <12) ‘は、&&と||の両方を使用するため許可されません。 「>」、「=」、「<」の後に空白を使用します。たとえば、「<5」は機能しないため、代わりに「<5」を使用します。 範囲:文字列
  • include_special_attributes特別な属性は、特別な役割を持つ属性です。特別な属性は、例を識別する属性です。対照的に、通常の属性は単に例を示しています。特別な属性は、id、ラベル、予測、クラスター、重量、およびバッチです。 範囲:ブール
  • invert_selectionこのパラメーターがtrueに設定されている場合、NOTゲートとして機能し、選択を反転します。その場合、選択された属性はすべて選択解除され、以前に選択されていなかった属性が選択されます。たとえば、属性「att1」が選択され、このパラメーターのチェック前に属性「att2」が選択されていない場合。このパラメーターを確認すると、「att1」が選択解除され、「att2」が選択されます。 範囲:ブール
  • coding_typeこのパラメータは、名目属性を数値属性に変換するために使用されるコーディングを示します。使用可能なオプションは、一意の整数、ダミーコーディング、エフェクトコーディングの3つです。これらのオプションは、添付のサンプルプロセスを調べることで簡単に理解できます。
    • unique_integers:このオプションを選択すると、名義属性の値は均等にランク付けされていると見なされるため、名義属性は単純に実数値の属性に変換され、古い値は等距離の実数値になります。
    • dummy_coding:このオプションが選択された場合、比較グループを除く名義属性のすべての値に対して、新しい属性が作成されます。比較グループは、比較グループパラメーターを使用して定義できます。すべての例で、その例の実際の名目値に対応する新しい属性は値1を取得し、他のすべての新しい属性は値0を取得します。この例の名義属性の値が比較グループに対応する場合、すべての新しい属性が設定されます比較グループは、「ダミーコーディング」のオプションパラメータであることに注意してください。比較グループが定義されていない場合、すべての例で、その例の実際の公称値に対応する新しい属性は値1を取得し、他のすべての新しい属性は値0を取得します。この場合、すべての新しい属性が値を取得する例はありません0.これは、添付のサンプルプロセスを調べることで簡単に理解できます。
    • effect_coding:このオプションが選択されている場合。比較グループを除く、名義属性のすべての値に対して、新しい属性が作成されます。比較グループは、比較グループパラメーターを使用して定義できます。すべての例で、その例の実際の名目値に対応する新しい属性は値1を取得し、他のすべての新しい属性は値0を取得します。この例の名義属性の値が比較グループに対応する場合、すべての新しい属性が設定されます-1に比較グループは、「効果コーディング」の必須パラメーターであることに注意してください。これは、添付のプロセス例を調べることで簡単に理解できます。

    範囲:選択

  • use_comparison_groupsこのパラメーターは、 コーディングタイプパラメーターがダミーコーディングに設定されている場合にのみ使用できます。オンにした場合、ExampleSetで選択した各属性に対して、 比較グループパラメーターで値を指定する必要があります。この値の個別の新しい列は、最終結果セットに表示されません。チェックされていない場合、選択された属性のすべての値は、結果のExampleSetのインジケーター属性になります。 範囲:ブール
  • comparison_groupsこのパラメーターは、選択された各非数値属性の比較グループを定義します。 1つの属性に指定できる比較グループは1つだけです。 コーディングタイプパラメータが「エフェクトコーディング」に設定されている場合、選択したすべての属性に対して比較グループを定義することが必須です。 範囲:
  • use_underscore_in_nameこのパラメーターは、空のスペースと「=」の代わりにアンダースコアを新しい属性の名前に使用する必要があるかどうかを示します。結果の名前は人間にとって読みにくいですが、データをデータベースシステムに書き込む場合は、これらを使用する方が適切な場合があります。 範囲:ブール

チュートリアルプロセス

異なるコーディングタイプによる名義から数値への変換

このプロセス例では、主にコーディングタイプと比較グループのパラメーターに焦点を当てています。残りのすべてのパラメーターは、主に属性を選択するためのものです。属性の選択演算子には、属性を選択するための多くの同様のパラメーターもあります。これらのパラメータの理解が必要な場合は、サンプルプロセスを学習できます。

Retrieveオペレーターは、「Golf」データセットをロードするために使用されます。ノミナルから数値への演算子が適用されます。 「Outlook」および「Wind」属性は、これらの属性を数値属性に変更するためにこの演算子に対して選択されています。最初に、コーディングタイプパラメータは「一意の整数」に設定されます。したがって、名目上の属性は単純に実際の値の属性に変換されます。古い値は等距離の実数値になります。結果ワークスペースで確認できるように、「Outlook」属性の値「sunny」の出現はすべて2に置き換えられます。同様に、「overcast」と「rain」はそれぞれ1と0に置き換えられます。同様に、「風」属性の「偽」値の出現はすべて1に置き換えられ、「真」の出現は0に置き換えられます。

次に、コーディングタイプパラメータを「ダミーコーディング」に変更して、プロセスを再度実行します。ダミーコーディングが選択されると、名義属性のすべての値に対して、新しい属性が作成されます。すべての例で、その例の実際の名目値に対応する新しい属性は値1を取得し、他のすべての新しい属性は値0を取得します。結果ワークスペースでわかるように、「Wind = true」および「Wind = false」属性「風」属性の代わりに作成されます。 「Wind」属性の値が「true」であるすべての例で、「Wind = true」属性の値は1になり、「Wind = false」属性の値は0になります。同様に、「Wind」属性の値は「false」、 「Wind = true」属性は値0を取得し、「Wind = false」属性は値1を取得します。同じ原則が「Outlook」属性にも適用されます。

ここで、コーディングタイプパラメーターを「ダミーコーディング」のままにして、比較グループの使用パラメーターをtrueに設定します。プロセスを再度実行します。比較グループパラメータで、「sunny」および「true」がそれぞれ「Outlook」および「Wind」属性の比較グループとして定義されていることがわかります。ダミーコーディングが使用され、比較グループを除く名義属性のすべての値に対して比較グループも使用されるため、新しい属性が作成されます。すべての例で、その例の実際の名目値に対応する新しい属性は値1を取得し、他のすべての新しい属性は値0を取得します。この例の名義属性の値が比較グループに対応する場合、すべての新しい属性が設定されますこれが、「Outlook = rain」および「Outlook = overcast」属性が作成されるのに、今回は「Outlook = sunny」属性が作成されない理由です。 「Outlook」属性の値が「sunny」である例では、すべての新しいOutlook属性の値は0になります。これは結果ワークスペースで確認できます。同じ規則が「風」属性にも適用されます。

次に、コーディングタイプパラメータを「エフェクトコーディング」に変更して、プロセスを再度実行します。比較グループパラメータで、「sunny」および「true」がそれぞれ「Outlook」および「Wind」属性の比較グループとして定義されていることがわかります。このように、比較グループを除く名目属性のすべての値に対して効果コーディングが選択されると、新しい属性が作成されます。すべての例で、その例の実際の名目値に対応する新しい属性は値1を取得し、他のすべての新しい属性は値0を取得します。この例の名義属性の値が比較グループに対応する場合、すべての新しい属性が設定されます-1にこれが、「Outlook = rain」および「Outlook = overcast」属性が作成されるのに、「Outlook = sunny」属性が今回作成されない理由です。 「Outlook」属性の値が「sunny」である例では、すべての新しいOutlook属性の値は-1になります。これは、結果ワークスペースで確認できます。同じルールが「風」属性にも適用されます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル