Write ARFF
(Advanced File Connectors)
概要
この演算子は、ARFFファイルの書き込みに使用されます。
詳細
この演算子は、機械学習ライブラリWekaから既知のARFF(Attribute-Relation File Format)ファイルの形式でデータを書き込むことができます。 ARFFファイルは、一連の属性を共有するインスタンスのリストを記述するASCIIテキストファイルです。 ARFFファイルは、Weka機械学習ソフトウェアで使用するために、ワイカト大学のコンピューター科学部の機械学習プロジェクトによって開発されました。 ARFFファイル形式の基本と構造を理解するために、添付のプロセス例をご覧ください。 ARFFファイルが書き込まれるとき、属性の役割は保存されないことに注意してください。 同様に、ARFFファイルが読み取られると、すべての属性の役割が通常に設定されます。
入力
input (IOObject)
この入力ポートには、ExampleSetが必要です。 これは、添付のプロセス例のRetrieveオペレータの出力です。
出力
through (IOObject)
入力ポートで提供されたExampleSetは、変更なしでこの出力ポートを介して配信されます。 これは通常、プロセスのさらに別の演算子で同じExampleSetを再利用するために使用されます。
file (File)
このポートは、ファイルをオブジェクトにバッファして、リーダーオペレータに渡します。
パラメータ
example_set_file
ARFFファイルのパスはここで指定されます。 ファイルの選択ボタンを使用して選択できます。
レンジ:filename
encoding
これはエキスパートパラメータです。 エンコードの長いリストが提供されます。 ユーザーはそれらのいずれかを選択できます。
レンジ:selection
チュートリアルプロセス
ARFFの基本
「アイリス」データセットは、Retrieve演算子を使用してロードされます。 ARFFファイルに「Iris」データセットを書き込むために、Write ARFF演算子が適用されます。サンプルの設定ファイルパラメータは、「%{tempdir} /Iris.txt」に設定されています。したがって、ARFFファイルは、コンピューターの一時フォルダーに「Iris」という名前で作成されます。このファイルを開いて、ARFFファイルの構造を確認します。
ARFFファイルには2つの異なるセクションがあります。最初のセクションはヘッダー情報で、その後にデータ情報が続きます。 ARFFファイルのヘッダーには、リレーションの名前と属性のリストが含まれています。リレーションの名前は、@ RELATIONステートメントの後に指定されます。 RapidMinerは関係を無視します。各属性定義は、@ ATTRIBUTEステートメントで始まり、その後に属性名とそのタイプが続きます。このサンプルプロセスの結果のARFFファイルは、ヘッダーで始まります。関係の名前は「RapidMinerData」です。リレーションの名前の後に、6つの属性が定義されます。
属性宣言は、@ ATTRIBUTEステートメントの順序付きシーケンスの形式を取ります。データセットの各属性には、その属性の名前とそのデータ型を一意に定義する独自の@ATTRIBUTEステートメントがあります。属性の宣言の順序は、ファイルのデータセクション内の列の位置を示します。たとえば、このサンプルプロセスの結果のARFFファイルでは、他のすべての属性宣言の最後に「ラベル」属性が宣言されています。したがって、「ラベル」属性の値は、データセクションの最後の列にあります。
ARFFで可能な属性タイプは次のとおりです。数値整数実数{nominalValue1、nominalValue2、…}明確な名義値のない名義属性の名義属性文字列(ただし、できるだけ頻繁に上記の名義定義を使用することをお勧めします) -format](現在RapidMinerではサポートされていません)
このプロセス例の結果のARFFファイルで、属性「a1」、「a2」、「a3」、および「a4」が実数型であることがわかります。属性「id」および「label」は名義型です。これらの名義属性を使用して、個別の名目値も指定されます。
ファイルのARFF Dataセクションには、データ宣言行@DATAと実際のサンプルデータ行が含まれています。 各例は1行で表され、キャリッジリターンは例の終わりを示します。 各例の属性値は、コンマで区切られています。 これらは、ヘッダーセクションで宣言された順序で出現する必要があります(つまり、n番目の@ATTRIBUTE宣言に対応するデータは、常に例の行のn番目のフィールドです)。 欠損値は単一の疑問符(?)で表されます。
パーセント記号(%)はコメントを示し、読み取り中は無視されます。 スペースを含む属性名または値の例は、一重引用符( ‘)で囲む必要があります。 RapidMinerでは、スパースARFF形式は現在、数値属性でのみサポートされていることに注意してください。 名目上の属性にスパースデータファイルも必要な場合は、RapidMinerが提供するスパースデータファイルに他のオプションのいずれかを使用してください。
Read ARFFオペレータを使用したARFFファイルの読み取り
Write ARFF演算子を使用して最初のサンプルプロセスで書き込まれたARFFファイルは、Read ARFF演算子を使用してこのサンプルプロセスで取得されます。 データファイルパラメータは「%{tempdir} /Iris.txt」に設定されています。 他のすべてのパラメータはデフォルト値で使用されます。 プロセスを実行します。 結果は、RapidMinerリポジトリの元のIrisデータセットと非常に似ていることがわかります。 Read ARFF演算子の結果では、すべての属性の役割が規則的であることに注意してください。 「id」および「label」属性の役割でさえ、通常に設定されます。 これは、ARFFファイルが属性の役割に関する情報を保存しないためです。