混合ユークリッド距離 (MixedEuclideanDistance)
(回答)
混合ユークリッド距離とは、RapidMinerがデータ型を見て数値型にはユークリッド距離を適用し、項目型には値が同じものの距離を”0″、異なるものを距離”1″としてユークリッド距離を適用する方法です。
一般に、距離を測るということは数値が対象になります。
そのため、本来であればk-NNの距離関数が扱えるのも数値だけのデータ、ということになります。
しかし、項目型のデータでも距離を測ることができます。
二つのデータを見て、同じなら距離”0″を、異なれば距離”1″とします。
具体的なデータだと、GolfデータセットのOutlookを見て、sunny同士なら距離”0″、sunnyとovercastなら距離”1″、sunnyとrainなら距離”1″になります。
ほかの組み合わせについても同様です。
同じなら距離”0″、異なれば距離”1″として項目型のデータの距離を測ります。
通常、項目型のデータにk-NNを使用しようとすると、項目型のままでは距離を測れないのでエラーが出ます。
そのため、自分で事前に項目型のデータを変換しなければなりません。
しかし、混合ユークリッド距離に設定しておけばでは自分で変換しなくともRapidMinerが自動的に変換してくれます。
混合ユークリッド距離は、項目型を事前にデータ変換が必要ないように自動で数値型に変換し(同じなら距離”0″、異なれば距離”1″)、数値型の距離の出し方でよく使われているユークリッド距離を適用する方法です。