RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

混合ユークリッド距離 (MixedEuclideanDistance)

 

(回答)
混合ユークリッド距離とは、RapidMinerがデータ型を見て数値型にはユークリッド距離を適用し、項目型には値が同じものの距離を”0″、異なるものを距離”1″としてユークリッド距離を適用する方法です。

一般に、距離を測るということは数値が対象になります。

そのため、本来であればk-NNの距離関数が扱えるのも数値だけのデータ、ということになります。
しかし、項目型のデータでも距離を測ることができます。

二つのデータを見て、同じなら距離”0″を、異なれば距離”1″とします。
具体的なデータだと、GolfデータセットのOutlookを見て、sunny同士なら距離”0″、sunnyとovercastなら距離”1″、sunnyとrainなら距離”1″になります。

ほかの組み合わせについても同様です。

同じなら距離”0″、異なれば距離”1″として項目型のデータの距離を測ります。

 

通常、項目型のデータにk-NNを使用しようとすると、項目型のままでは距離を測れないのでエラーが出ます。

そのため、自分で事前に項目型のデータを変換しなければなりません。

しかし、混合ユークリッド距離に設定しておけばでは自分で変換しなくともRapidMinerが自動的に変換してくれます。

 

混合ユークリッド距離は、項目型を事前にデータ変換が必要ないように自動で数値型に変換し(同じなら距離”0″、異なれば距離”1″)、数値型の距離の出し方でよく使われているユークリッド距離を適用する方法です。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル