Write ARFF

(Advanced File Connectors)

概要

この演算子は、ARFFファイルの書き込みに使用されます。

詳細

この演算子は、機械学習ライブラリWekaから既知のARFF（Attribute-Relation File Format）ファイルの形式でデータを書き込むことができます。 ARFFファイルは、一連の属性を共有するインスタンスのリストを記述するASCIIテキストファイルです。 ARFFファイルは、Weka機械学習ソフトウェアで使用するために、ワイカト大学のコンピューター科学部の機械学習プロジェクトによって開発されました。 ARFFファイル形式の基本と構造を理解するために、添付のプロセス例をご覧ください。 ARFFファイルが書き込まれるとき、属性の役割は保存されないことに注意してください。同様に、ARFFファイルが読み取られると、すべての属性の役割が通常に設定されます。

入力

input (IOObject)
この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のRetrieveオペレータの出力です。

出力

through (IOObject)
入力ポートで提供されたExampleSetは、変更なしでこの出力ポートを介して配信されます。これは通常、プロセスのさらに別の演算子で同じExampleSetを再利用するために使用されます。

file (File)
このポートは、ファイルをオブジェクトにバッファして、リーダーオペレータに渡します。

パラメータ

example_set_file
ARFFファイルのパスはここで指定されます。ファイルの選択ボタンを使用して選択できます。
レンジ：filename

encoding
これはエキスパートパラメータです。エンコードの長いリストが提供されます。ユーザーはそれらのいずれかを選択できます。
レンジ：selection

チュートリアルプロセス

ARFFの基本
「アイリス」データセットは、Retrieve演算子を使用してロードされます。 ARFFファイルに「Iris」データセットを書き込むために、Write ARFF演算子が適用されます。サンプルの設定ファイルパラメータは、「％{tempdir} /Iris.txt」に設定されています。したがって、ARFFファイルは、コンピューターの一時フォルダーに「Iris」という名前で作成されます。このファイルを開いて、ARFFファイルの構造を確認します。

ARFFファイルには2つの異なるセクションがあります。最初のセクションはヘッダー情報で、その後にデータ情報が続きます。 ARFFファイルのヘッダーには、リレーションの名前と属性のリストが含まれています。リレーションの名前は、@ RELATIONステートメントの後に指定されます。 RapidMinerは関係を無視します。各属性定義は、@ ATTRIBUTEステートメントで始まり、その後に属性名とそのタイプが続きます。このサンプルプロセスの結果のARFFファイルは、ヘッダーで始まります。関係の名前は「RapidMinerData」です。リレーションの名前の後に、6つの属性が定義されます。

属性宣言は、@ ATTRIBUTEステートメントの順序付きシーケンスの形式を取ります。データセットの各属性には、その属性の名前とそのデータ型を一意に定義する独自の@ATTRIBUTEステートメントがあります。属性の宣言の順序は、ファイルのデータセクション内の列の位置を示します。たとえば、このサンプルプロセスの結果のARFFファイルでは、他のすべての属性宣言の最後に「ラベル」属性が宣言されています。したがって、「ラベル」属性の値は、データセクションの最後の列にあります。

ARFFで可能な属性タイプは次のとおりです。数値整数実数{nominalValue1、nominalValue2、…}明確な名義値のない名義属性の名義属性文字列（ただし、できるだけ頻繁に上記の名義定義を使用することをお勧めします） -format]（現在RapidMinerではサポートされていません）

このプロセス例の結果のARFFファイルで、属性「a1」、「a2」、「a3」、および「a4」が実数型であることがわかります。属性「id」および「label」は名義型です。これらの名義属性を使用して、個別の名目値も指定されます。

ファイルのARFF Dataセクションには、データ宣言行@DATAと実際のサンプルデータ行が含まれています。各例は1行で表され、キャリッジリターンは例の終わりを示します。各例の属性値は、コンマで区切られています。これらは、ヘッダーセクションで宣言された順序で出現する必要があります（つまり、n番目の@ATTRIBUTE宣言に対応するデータは、常に例の行のn番目のフィールドです）。欠損値は単一の疑問符（？）で表されます。

パーセント記号（％）はコメントを示し、読み取り中は無視されます。スペースを含む属性名または値の例は、一重引用符（ ‘）で囲む必要があります。 RapidMinerでは、スパースARFF形式は現在、数値属性でのみサポートされていることに注意してください。名目上の属性にスパースデータファイルも必要な場合は、RapidMinerが提供するスパースデータファイルに他のオプションのいずれかを使用してください。

Read ARFFオペレータを使用したARFFファイルの読み取り
Write ARFF演算子を使用して最初のサンプルプロセスで書き込まれたARFFファイルは、Read ARFF演算子を使用してこのサンプルプロセスで取得されます。データファイルパラメータは「％{tempdir} /Iris.txt」に設定されています。他のすべてのパラメータはデフォルト値で使用されます。プロセスを実行します。結果は、RapidMinerリポジトリの元のIrisデータセットと非常に似ていることがわかります。 Read ARFF演算子の結果では、すべての属性の役割が規則的であることに注意してください。「id」および「label」属性の役割でさえ、通常に設定されます。これは、ARFFファイルが属性の役割に関する情報を保存しないためです。