Data to Similarity Data

データから類似度データ（RapidMiner Studio Core）

あらすじ

この演算子は、指定されたExampleSetの各例と同じExampleSetの他のすべての例との類似度を測定し、類似度ExampleSetを返します。

説明

Data to Similarity Data演算子は、ExampleSetのすべての例の類似性を計算します。例はそれ自体と比較されています。したがって、ExampleSetにn個の例がある場合、この演算子はn ^ 2個の類似性比較を返します。この演算子は、類似度計算のための多くの異なる尺度を提供します。類似性の計算に使用する尺度は、パラメーターを介して指定できます。メジャーには、 混合メジャー 、 名目メジャー 、 数値メジャー 、 ブレグマン発散の 4種類があります。この演算子によって作成されたデータセットは単なるビューであるため、メモリの問題はないはずです。

クロス距離演算子の両方の入力で同じExampleSetが提供され、 類似度計算パラメーターもfalseに設定されている場合、この演算子の動作はクロス距離演算子の特定のシナリオに近いと見なすことができます。この場合、Cross Distances演算子は、Data to Similarity Data演算子と同様に動作します。ソート順以外に、これら2つのシナリオ間に大きな違いはありません。

分化

類似性へのデータ

Data to Similarity演算子は、ExampleSetの例間の類似性を計算します。同じ比較は再度繰り返さない場合、例えば実施例X計算類似性、例えばyが次に例えばyが再び例と比較することはできませんと比較さxに計算類似結果は同じになるからです。したがって、ExampleSetにn個の例がある場合、この演算子はn ^ 2個の類似性比較を返しません。代わりに、 （n）（n-1）/ 2個の類似性比較を返します。さらに、この演算子は、ExampleSetの代わりに類似性測定オブジェクトを返します。

入力

サンプルセット（IOObject）この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。

出力

類似例セット（IOObject）計算された類似度を含む類似度ExampleSetは、このポートを介して配信されます。

パラメーター

measure_typesこのパラメーターは、類似度の計算に使用されるメジャーのタイプを選択するために使用されます。次のオプションを使用できます： 混合メジャー 、 名目メジャー 、 数値メジャー 、およびブレグマン発散 。範囲：選択
mixed_measureこのパラメーターは、 メジャータイプパラメーターが「混合メジャー」に設定されている場合に使用できます。使用可能なオプションは「混合ユークリッド距離」範囲のみです：選択
nominal_measureこのパラメーターは、 メジャータイプパラメーターが「ノミナルメジャー」に設定されている場合に使用できます。入力ExampleSetに数値属性がある場合、このオプションは適用できません。この場合、「数値測定」オプションを選択する必要があります。範囲：選択
numeric_measureこのパラメーターは、 メジャータイプパラメーターが「数値メジャー」に設定されている場合に使用できます。入力ExampleSetにノミナル属性がある場合、このオプションは適用できません。この場合、「名目尺度」オプションを選択する必要があります。範囲：選択
divergenceこのパラメーターは、 メジャータイプパラメーターが「bregman divergences」に設定されている場合に使用できます。範囲：選択
kernel_typeこのパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定されている場合にのみ使用できます。カーネル関数のタイプは、このパラメーターを介して選択されます。次のカーネルタイプがサポートされています。
- dot：ドットカーネルはk（x、y）= x * yで定義されます。つまり、xとyの内積です。
- radial：放射状カーネルはexp（-g || xy || ^ 2）で定義されます。ここで、gはカーネルガンマパラメーターで指定されたガンマです。調整可能なパラメーターガンマは、カーネルのパフォーマンスに大きな役割を果たしており、目前の問題に注意深く調整する必要があります。
- polynomial：多項式カーネルは、k（x、y）=（x * y + 1）^ dで定義されます。dは多項式の次数であり、カーネル次数パラメーターで指定されます。多項式カーネルは、すべてのトレーニングデータが正規化される問題に適しています。
- neural：ニューラルカーネルは、2層のニューラルネットtanh（ax * y + b）によって定義されます。ここで、aはアルファで、bは切片定数です。これらのパラメーターは、カーネルaおよびカーネルbパラメーターを使用して調整できます。アルファの一般的な値は1 / Nです。Nはデータ次元です。 aとbのすべての選択が有効なカーネル関数につながるわけではないことに注意してください。
- sigmoid：これはシグモイドカーネルです。一部のパラメーターでは、シグモイドカーネルが無効であることに注意してください。
- anova：これはanovaカーネルです。調整可能なパラメーターのガンマと度があります。
- epachnenikov：Epanechnikovカーネルは、-1〜1のuに対してこの関数（3/4）（1-u2）であり、その範囲外のuに対してゼロです。カーネルsigma1とカーネル次数の2つの調整可能なパラメーターがあります。
- gaussian_combination：これはガウスの組み合わせカーネルです。調整可能なパラメーターkernel sigma1、kernel sigma2、およびkernel sigma3があります。
- multiquadric：multiquadricカーネルは、|| xy || ^ 2 + c ^ 2の平方根で定義されます。調整可能なパラメーターkernel sigma1とkernel sigma shiftがあります。
範囲：選択
kernel_gammaこれは、SVMカーネルパラメーターガンマです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターが放射状または分散分布に設定されている場合にのみ使用できます。範囲：実数
kernel_sigma1これはSVMカーネルパラメータsigma1です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがepachnenikov 、 ガウスの組み合わせ、またはマルチクアドリックに設定されている場合にのみ使用できます。範囲：実数
kernel_sigma2これはSVMカーネルパラメータsigma2です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがガウスの組み合わせに設定されている場合にのみ使用できます。範囲：実数
kernel_sigma3これはSVMカーネルパラメータsigma3です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがガウスの組み合わせに設定されている場合にのみ使用できます。範囲：実数
kernel_shiftこれは、SVMカーネルパラメーターシフトです。このパラメーターは、 数値測定パラメーターが ‘Kernel Euclidean Distance’に設定され、 カーネルタイプパラメーターがmultiquadricに設定されている場合にのみ使用できます。範囲：実数
kernel_degreeこれは、SVMカーネルパラメータの次数です。このパラメーターは、 数値測定パラメーターが ‘Kernel Euclidean Distance’に設定され、 カーネルタイプパラメーターがPolynomial 、 anovaまたはepachnenikovに設定されている場合にのみ使用できます。範囲：実数
kernel_aこれはSVMカーネルパラメータaです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。範囲：実数
kernel_bこれはSVMカーネルパラメータbです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。範囲：実数

チュートリアルプロセス

類似データへのデータ演算子の概要

「ゴルフ」データセットは、検索演算子を使用してロードされます。ここにブレークポイントが挿入されるので、14個の例を含むExampleSetを見ることができます。類似度データ演算子がそれに適用され、例の類似度を計算します。指定されたExampleSetには14個の例があるため、結果ワークスペースに表示される結果の類似度ExampleSetには196（14 x 14）の類似性比較があります。