Join
概要
この演算子は、入力ExampleSetの1つ以上の属性をキー属性として使用して、2つのExampleSetを結合します 。
詳細
この演算子は、入力ExampleSetの1つ以上の属性をキー属性として使用して、2つのExampleSetを結合します 。
キー属性の同じ値は、一致する例を示します。 idロールの属性はデフォルトでキーとして選択されますが、1つ以上の属性の任意のセットをキーとして選択できます。 4つのタイプの結合が可能です: inner 、 left 、 rightおよびouter結合。これらすべてのタイプの結合については、パラメーターのセクションで説明しています。
分化
Append
追加演算子は、入力ExampleSetの例をマージして、結果のExampleSetにします。したがって、すべての入力ExampleSetは同じ構造(属性の数、属性名、および値の型)を持つ必要があります。
Cartesian Product
デカルト積演算子は、入力ExampleSetのデカルト積を構築します。つまり、左のExampleSetのすべてのExampleは、右のExampleSetの各Exampleに結合されます。
Union
Union演算子は、すべての属性と例が結果のユニオンExampleSetの一部となるように、両方の入力ExampleSetを結合します。
Superset
スーパーセットオペレーターは、入力として2つのExampleSetを予期し、最初のExampleSetの属性を2番目のExampleSetに追加します。結果の両方のExampleSetは、スーパーセット演算子の出力として配信されます。
入力
- 左 (IOObject)左側の入力ポートには、ExampleSetが必要です。このExampleSetは、結合の左側のExampleSetとして使用されます。
- 右 (IOObject)正しい入力ポートには、ExampleSetが必要です。このExampleSetは、結合の正しいExampleSetとして使用されます。
出力
- 結合(IOObject)出力ポートは、ジョイントExampleSetを提供します。
パラメーター
- remove_double_attributesこのパラメーターは、二重属性を削除または名前変更する必要があるかどうかを示します。ダブル属性は、両方のExampleSetに存在する属性です。このパラメーターをオンにすると、両方のExampleSetに存在する属性から、左側のExampleSetのみが取得され、右側のExampleSetから1つが破棄されます。このパラメーターがオフの場合、右側のExampleSetの属性の名前が変更されます。 キー属性は常に左側のExampleSetから取得されます。この二重属性のチェックは、通常の属性にのみ適用されることに注意してください。左側のExampleSetには存在しない右側のExampleSetの特別な属性が単に追加されます。それらが既に存在する場合、それらは単にスキップされます。
範囲:
- join_typeこのパラメーターは、実行する結合を指定します。チュートリアルのプロセスを学習することで、これらの結合を簡単に理解できます。 4種類の結合がサポートされています。
- inner:結果のExampleSetには、両方の入力ExampleSetのキー属性が一致する、つまり同じ値を持つExampleのみが含まれます。
- left:これは左外部結合とも呼ばれます。結果のExampleSetには、左のExampleSetのすべての例が含まれます。正しいExampleSetに一致する例が見つからなかった場合、その属性は欠損値で構成されます。欠損値またはヌル値は「?」として表示されますRapidMinerで。左結合には常に内部結合の結果が含まれます。ただし、右のExampleSetに一致する例がないいくつかの例を含めることができます。
- right:これは、右外部結合とも呼ばれます。結果のExampleSetには、右のExampleSetのすべてのレコードが含まれます。左側のExampleSetに一致する例が見つからない場合、その属性は欠損値で構成されます。欠損値またはヌル値は「?」として表示されますRapidMinerで。正しい結合には、常に内部結合の結果が含まれます。ただし、左側のExampleSetに一致する例がないいくつかの例を含めることができます。
- outer:これは、完全外部結合とも呼ばれます。このタイプの結合は、左結合と右結合の結果を結合します。一致するキー属性値が他のExampleSetに存在するかどうかにかかわらず、両方のExampleSetのすべてのサンプルは、結果のExampleSetの一部になります。一致するキー属性値が見つからなかった場合、対応する結果の属性は欠損値で構成されます。欠損値またはヌル値は「?」として表示されますRapidMinerで。外部結合には常に内部結合の結果が含まれます。ただし、他のExampleSetに一致する例がないいくつかの例を含めることができます。
範囲:
- use_id_attribute_as_keyこのパラメーターは、idロールを持つ属性をキー属性として使用する必要があるかどうかを示します 。このオプションはデフォルトでチェックされています。チェックされていない場合、左右両方のExampleSetのキー属性を指定する必要があります 。 キー属性の同じ値は、一致する例を示します。
範囲:
- key_attributesこのパラメーターは、パラメーターがキーとしてid属性を使用するときにチェックを外した場合に使用可能です。このパラメーターは、 キー属性として使用される属性を指定します 。 キー属性の同じ値は、一致する例を示します。左側のExampleSetのキー属性ごとに、右側のExampleSetの対応するキー属性を選択する必要があります。適切なキー属性を選択することは、目的の結果を得るために重要です。
範囲:
- keep_both_join_attributesオンにすると、結合ペアの両方の属性が保持されます。通常、両方の属性が同一であるため、これは不要です。一方の側に欠損値がある場合は、そのような列を保持すると便利な場合があります。
範囲:
チュートリアルプロセス
さまざまな結合タイプを調べる
結合演算子の各ポートに接続されている2つの同様のExampleSetを作成した後、利用可能な結合タイプをいじることができます。このプロセス内の説明は、作成されたExampleSetと各結合タイプの結果を説明しています。