Log to Data
概要
この演算子は、Log演算子で生成されたデータをExampleSetに変換し、ExampleSetをプロセスの他の演算子で使用できるようにします。
詳細
Logオペレーターは、情報をログ表に保管します。この情報は、演算子のパラメーター値、演算子の適用回数、実行時間など、ほとんど何でもかまいません。Log演算子は、プロセスの実行中に計算された値を確認したいときに使用されます。たとえば、ループ演算子のすべての反復で異なるパラメーターの値を表示したい場合。このようなシナリオでは、理想的なオペレーターはLogオペレーターです。この演算子を使用して、さまざまな情報を保存できます。ログテーブルに保存された情報は、結果ビューで表示できます。ただし、この情報はプロセスで直接アクセスできません。この問題を解決するために、Log to Dataオペレーターは、ExampleSetの形式でLogテーブルの情報を提供します。このExampleSetは、他のExampleSetと同様にプロセスで使用できます。 RapidMinerはこのExampleSetの属性のタイプを自動的に推測し、すべての属性には通常の役割があります。タイプとロールは、対応する演算子を使用して変更できます。
入力
- スルー (IOObject)このポートにオブジェクトを接続することは必須ではありません。このポートで接続されたオブジェクトは、出力ポートを変更せずに配信されます。この演算子は複数の入力を持つことができます。ある入力が接続されると、別の入力(ある場合)を受け入れる準備ができている別の入力ポートを介して使用可能になります。入力の順序は同じままです。 Log to Dataオペレーターの最初の入力ポートで提供されたオブジェクトは、最初の出力ポートで使用可能です。
出力
- サンプルセット(IOObject)Logオペレーターによって生成されたデータは、このポートを介してExampleSetとして配信されます。
- スルー(IOObject)入力として与えられたオブジェクトは、このポートを介して出力に変更されることなく渡されます。このポートを他のポートに接続することは必須ではありません。 Log to Dataオペレーターには、複数の出力を含めることができます。 1つの出力が接続されると、出力ポートを介して別の出力が使用可能になり、別の出力(ある場合)を配信する準備が整います。出力の順序は同じままです。 Log to Dataオペレーターの最初の入力ポートで配信されたオブジェクトは、最初の出力ポートで配信されます
パラメーター
- log_nameこのパラメーターは、ExampleSetとして返されるログデータを生成したLogオペレーターの名前を指定します。このパラメーターを空白のままにすると、最初に見つかったデータテーブルがExampleSetとして返されます。 範囲:文字列
チュートリアルプロセス
LogおよびLog to Data演算子を使用したトレーニングとテストのエラーへのアクセス
「重み付け」データセットは、検索演算子を使用してロードされます。ループパラメータ演算子が適用されます。ループパラメーターオペレーターのパラメーターは、このオペレーターが25回ループするように設定されます。したがって、そのサブプロセスは25回実行されます。すべての反復で、SVM(LibSVM)オペレーターのCパラメーターの値が変更されます。 Cパラメーターの値は、最初の反復では0.001です。値は、最後の反復で100000に達するまで対数的に増加します。
ループパラメーターオペレーターのサブプロセスを見てください。まず、データの分割演算子を使用して、データを2つの等しいパーティションに分割します。 SVM(LibSVM)オペレーターは1つのパーティションに適用されます。結果の分類モデルは、両方のパーティションで2つのモデルの適用演算子を使用して適用されます。テストパーティションとトレーニングパーティションの両方でのSVMモデルの統計的パフォーマンスは、パフォーマンス(分類)演算子を使用して測定されます。最後に、Log演算子を使用して必要な結果を保存します。
Logオペレーターのlogパラメーターには4つのものが保存されます。ループパラメーターオペレーターの反復は、SVMオペレーターのapply-countによってカウントされます。これは「Count」という名前の列に保存されます。トレーニングパーティションに適用されたパフォーマンス(分類)演算子の分類エラーパラメーターの値は、「トレーニングエラー」という名前の列に格納されます。テストパーティションに適用されたパフォーマンス(分類)演算子の分類エラーパラメーターの値は、「テストエラー」という名前の列に格納されます。 SVM(LibSVM)オペレーターのCパラメーターの値は、「SVM C」という名前の列に格納されます。
メインプロセスでは、LogSet to Data演算子を使用して、ExampleSetの形式でログ値を提供します。結果のExampleSetはプロセスの結果ポートに接続され、結果ワークスペースで確認できます。メタデータビューでExampleSetのメタデータを確認でき、データビューでExampleSetの値を確認できます。このExampleSetを使用して、SVM(LibSVM)オペレーターのCパラメーターの値を増やした場合の、トレーニングおよびテストパーティションの分類エラーの動作を調べることができます。これらの結果をグラフ形式で表示するには、プロットビューに切り替えます。適切なプロッターを選択します。 「インデックス次元」として「SVM-C」を使用して「シリーズマルチ」プロッターを使用できます。 「プロットシリーズ」で「トレーニングエラー」と「テストエラー」を選択します。 「散布図」プロッタも使用できます。パラメーターCの増加に伴うトレーニングおよびテストエラーの動作を分析できるようになりました。さらに重要なことは、このExampleSetがプロセスで利用できるため、そこに格納された情報をプロセスの他のオペレーターが使用できることです。
RapidMinerバージョン8.0以降、ループパラメーターオペレーターは、a)並列に、b)パラメーターセットとパフォーマンスを自動的に記録するように更新されていることに注意してください。詳細については、そのオペレーターのヘルプを参照してください。