Data to Similarity

概要

この演算子は、指定されたExampleSetの各例と、同じExampleSetの他のすべての例との類似性を測定します。

詳細

Data to Similarity演算子は、ExampleSetの例間の類似性を計算します。同じ比較は再度繰り返さない場合、例えば実施例X計算類似性、例えばyが次に例えばyが再び例と比較することはできませんと比較さxに計算類似結果は同じになるからです。したがって、ExampleSetにn個の例がある場合、この演算子はn ^ 2個の類似性比較を返しません。代わりに、 （n）（n-1）/ 2個の類似性比較を返します。この演算子は、類似度計算のための多くの異なる尺度を提供します。類似性の計算に使用する尺度は、パラメーターを介して指定できます。メジャーには、 混合メジャー 、 名目メジャー 、 数値メジャー 、 ブレグマン発散の 4種類があります。

クロス距離演算子の両方の入力で同じExampleSetが提供され、 類似度の計算パラメーターもtrueに設定されている場合、この演算子の動作はクロス距離演算子の特定のシナリオに近いと見なすことができます。この場合、Cross Distances演算子は、Data to Similarity演算子と同様に動作します。ただし、いくつかの違いがありますが、たとえば、このシナリオの例はそれ自体と比較され、次に、結果の兆候（つまり、+ iveまたは-ive）も異なります。

分化

データと類似度データ

Data to Similarity Data演算子は、ExampleSetのすべての例の類似性を計算します。例でさえも自分自身と比較されます。したがって、ExampleSetにn個の例がある場合、この演算子はn ^ 2個の類似性比較を返します。 Data to Similarity Data演算子は、単なるビューであるExampleSetを返すため、メモリの問題はありません。

入力

サンプルセット（IOObject）この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレーターの出力です。他の演算子の出力も入力として使用できます。

出力

類似度（Similarity Measure）指定されたExampleSetの各例と同じExampleSetの他のすべての例との間で計算された類似性を含む類似性測定オブジェクトは、このポートを介して配信されます。
サンプルセット（IOObject）入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

measure_typesこのパラメーターは、類似度の計算に使用されるメジャーのタイプを選択するために使用されます。次のオプションを使用できます： 混合メジャー 、 名目メジャー 、 数値メジャー 、およびブレグマン発散 。範囲：選択
mixed_measureこのパラメーターは、 メジャータイプパラメーターが「混合メジャー」に設定されている場合に使用できます。使用可能なオプションは「混合ユークリッド距離」範囲のみです：選択
nominal_measureこのパラメーターは、 メジャータイプパラメーターが「ノミナルメジャー」に設定されている場合に使用できます。入力ExampleSetに数値属性がある場合、このオプションは適用できません。この場合、「数値測定」オプションを選択する必要があります。範囲：選択
numeric_measureこのパラメーターは、 メジャータイプパラメーターが「数値メジャー」に設定されている場合に使用できます。入力ExampleSetにノミナル属性がある場合、このオプションは適用できません。この場合、「名目尺度」オプションを選択する必要があります。範囲：選択
divergenceこのパラメーターは、 メジャータイプパラメーターが「bregman divergences」に設定されている場合に使用できます。範囲：選択
kernel_typeこのパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定されている場合にのみ使用できます。カーネル関数のタイプは、このパラメーターを介して選択されます。次のカーネルタイプがサポートされています。
- dot：ドットカーネルはk（x、y）= x * yで定義されます。つまり、xとyの内積です。
- radial：放射状カーネルはexp（-g || xy || ^ 2）で定義されます。ここで、gはカーネルガンマパラメーターで指定されたガンマです。調整可能なパラメーターガンマは、カーネルのパフォーマンスに大きな役割を果たしており、目前の問題に注意深く調整する必要があります。
- polynomial：多項式カーネルは、k（x、y）=（x * y + 1）^ dで定義されます。dは多項式の次数であり、カーネル次数パラメーターで指定されます。多項式カーネルは、すべてのトレーニングデータが正規化される問題に適しています。
- neural：ニューラルカーネルは、2層のニューラルネットtanh（ax * y + b）によって定義されます。ここで、aはアルファで、bは切片定数です。これらのパラメーターは、カーネルaおよびカーネルbパラメーターを使用して調整できます。アルファの一般的な値は1 / Nです。Nはデータ次元です。 aとbのすべての選択が有効なカーネル関数につながるわけではないことに注意してください。
- sigmoid：これはシグモイドカーネルです。一部のパラメーターでは、シグモイドカーネルが無効であることに注意してください。
- anova：これはanovaカーネルです。調整可能なパラメーターのガンマと度があります。
- epachnenikov：Epanechnikovカーネルは、-1〜1のuに対してこの関数（3/4）（1-u2）であり、その範囲外のuに対してゼロです。カーネルsigma1とカーネル次数の2つの調整可能なパラメーターがあります。
- gaussian_combination：これはガウスの組み合わせカーネルです。調整可能なパラメーターkernel sigma1、kernel sigma2、およびkernel sigma3があります。
- multiquadric：multiquadricカーネルは、|| xy || ^ 2 + c ^ 2の平方根で定義されます。調整可能なパラメーターkernel sigma1とkernel sigma shiftがあります。
範囲：選択
kernel_gammaこれは、SVMカーネルパラメーターガンマです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターが放射状または分散分布に設定されている場合にのみ使用できます。範囲：実数
kernel_sigma1これはSVMカーネルパラメータsigma1です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがepachnenikov 、 ガウスの組み合わせ、またはマルチクアドリックに設定されている場合にのみ使用できます。範囲：実数
kernel_sigma2これはSVMカーネルパラメータsigma2です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがガウスの組み合わせに設定されている場合にのみ使用できます。範囲：実数
kernel_sigma3これはSVMカーネルパラメータsigma3です。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがガウスの組み合わせに設定されている場合にのみ使用できます。範囲：実数
kernel_shiftこれは、SVMカーネルパラメーターシフトです。このパラメーターは、 数値測定パラメーターが ‘Kernel Euclidean Distance’に設定され、 カーネルタイプパラメーターがmultiquadricに設定されている場合にのみ使用できます。範囲：実数
kernel_degreeこれは、SVMカーネルパラメータの次数です。このパラメーターは、 数値測定パラメーターが ‘Kernel Euclidean Distance’に設定され、 カーネルタイプパラメーターがPolynomial 、 anovaまたはepachnenikovに設定されている場合にのみ使用できます。範囲：実数
kernel_aこれはSVMカーネルパラメータaです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。範囲：実数
kernel_bこれはSVMカーネルパラメータbです。このパラメーターは、 数値測定パラメーターが「カーネルユークリッド距離」に設定され、 カーネルタイプパラメーターがニューラルに設定されている場合にのみ使用できます。範囲：実数

チュートリアルプロセス

Data to Similarity演算子の概要

「ゴルフ」データセットは、検索演算子を使用してロードされます。ここにブレークポイントが挿入されるので、ExampleSetを見ることができます。 ExampleSetには14の例があることがわかります。類似性へのデータ演算子がそれに適用され、例の類似性を計算します。指定されたExampleSetには14の例があるため、結果ワークスペースに表示される結果の類似性測定オブジェクトには91（つまり（14）（14-1）/ 2）の類似性比較があります。