Read ARFF

(Advanced File Connectors)

概要

この演算子は、ARFFファイルの読み取りに使用されます。

詳細

この演算子は、機械学習ライブラリWekaから既知のARFF（属性関連ファイル形式）ファイルを読み取ることができます。 ARFFファイルは、一連の属性を共有するインスタンスのリストを記述するASCIIテキストファイルです。 ARFFファイルは、Weka機械学習ソフトウェアで使用するために、ワイカト大学のコンピューター科学部の機械学習プロジェクトによって開発されました。 ARFFファイル形式の基本と構造を理解するには、添付のプロセス例をご覧ください。 ARFFファイルが書き込まれるとき、属性の役割は保存されないことに注意してください。同様に、ARFFファイルが読み取られると、すべての属性の役割が通常に設定されます。

入力

file
ARFFファイルは、Read Fileオペレータなどのファイル出力ポートを持つ他のオペレータで作成できるファイルオブジェクトとして期待されています。

出力

output (IOObject)
このポートは、メタデータとともに表形式でARFFファイルを配信します。この出力は、Retrieveオペレータの出力に似ています。

パラメータ

data_file
ARFFファイルのパスはここで指定されます。ファイルの選択ボタンを使用して選択できます。
レンジ：filename

encoding
これはエキスパートパラメータです。エンコードの長いリストが提供されます。ユーザーはそれらのいずれかを選択できます。
レンジ：selection

read_not_matching_values_as_missings
これはエキスパートパラメータです。このパラメータがtrueに設定されている場合、予期される値タイプと一致しない値は欠損値と見なされ、「？」に置き換えられます。たとえば、「abc」が整数列に書き込まれている場合、欠損値として扱われます。 ARFFファイルの疑問符（？）も欠損値として読み取られます。
レンジ：boolean

decimal_character
この文字は、小数点文字として使用されます。
レンジ：char

grouped_digits
このパラメータは、グループ化された数字を解析するかどうかを決定します。このパラメータがtrueに設定されている場合、グループ化文字パラメータを指定する必要があります。
レンジ：boolean

grouping_character
このパラメータは、グループ化された数字パラメータがtrueに設定されている場合にのみ使用できます。この文字はグループ化文字として使用されます。数字の間にある場合、数字は結合され、この文字は無視されます。たとえば、ARFFファイルに「22-14」が存在し、グループ化文字として「-」が設定されている場合、「2214」が格納されます。
レンジ：char

infinity_string
このパラメータは、特定の無限大表現（「Infinity」など）を解析するように設定できます。設定されていない場合、ローカル固有の無限大表現が使用されます。
レンジ：string

チュートリアルプロセス

ARFFの基本
「アイリス」データセットは、Retrieve演算子を使用してロードされます。 ARFFファイルに「Iris」データセットを書き込むために、Write ARFF演算子が適用されます。サンプルの設定ファイルパラメータは「D：\ Iris」に設定されています。したがって、ARFFファイルは、コンピューターの「D」ドライブに「Iris」という名前で作成されます。このファイルを開いて、ARFFファイルの構造を確認します。

ARFFファイルには2つの異なるセクションがあります。最初のセクションはヘッダー情報で、その後にデータ情報が続きます。 ARFFファイルのヘッダーには、リレーションの名前と属性のリストが含まれています。リレーションの名前は、@ RELATIONステートメントの後に指定されます。 RapidMinerは関係を無視します。各属性定義は、@ ATTRIBUTEステートメントで始まり、その後に属性名とそのタイプが続きます。このサンプルプロセスの結果のARFFファイルは、ヘッダーで始まります。関係の名前は「RapidMinerData」です。リレーションの名前の後に、6つの属性が定義されます。

属性宣言は、@ ATTRIBUTEステートメントの順序付きシーケンスの形式を取ります。データセットの各属性には、その属性の名前とそのデータ型を一意に定義する独自の@ATTRIBUTEステートメントがあります。属性の宣言の順序は、ファイルのデータセクション内の列の位置を示します。たとえば、このサンプルプロセスの結果のARFFファイルでは、他のすべての属性宣言の最後に「ラベル」属性が宣言されています。したがって、「ラベル」属性の値は、データセクションの最後の列にあります。

ARFFで可能な属性タイプは次のとおりです。数値整数実数{nominalValue1、nominalValue2、…}明確な名義値のない名義属性の名義属性文字列（ただし、できるだけ頻繁に上記の名義定義を使用することをお勧めします） -format]（現在RapidMinerではサポートされていません）

このプロセス例の結果のARFFファイルで、属性「a1」、「a2」、「a3」、および「a4」が実数型であることがわかります。属性「id」および「label」は名義型です。これらの名義属性を使用して、個別の名目値も指定されます。

ファイルのARFF Dataセクションには、データ宣言行@DATAと実際のサンプルデータ行が含まれています。各例は1行で表され、キャリッジリターンは例の終わりを示します。各例の属性値は、コンマで区切られています。これらは、ヘッダーセクションで宣言された順序で出現する必要があります（つまり、n番目の@ATTRIBUTE宣言に対応するデータは、常に例の行のn番目のフィールドです）。欠損値は単一の疑問符（？）で表されます。

パーセント記号（％）はコメントを示し、読み取り中は無視されます。スペースを含む属性名または値の例は、一重引用符（ ‘）で囲む必要があります。 RapidMinerでは、スパースARFF形式は現在、数値属性でのみサポートされていることに注意してください。名目上の属性にもスパースデータファイルが必要な場合は、RapidMinerが提供するスパースデータファイルに他のオプションを使用してください。

Read ARFFオペレータを使用したARFFファイルの読み取り
Write ARFF演算子を使用して最初のサンプルプロセスで書き込まれたARFFファイルは、Read ARFF演算子を使用してこのサンプルプロセスで取得されます。データファイルパラメータは ‘％{tempdir} / Iris’に設定されています。他のすべてのパラメータはデフォルト値で使用されます。プロセスを実行します。結果は、RapidMinerリポジトリの元のIrisデータセットと非常に似ていることがわかります。 Read ARFF演算子の結果では、すべての属性の役割が規則的であることに注意してください。「id」および「label」属性の役割でさえ、通常に設定されます。これは、ARFFファイルが属性の役割に関する情報を保存しないためです。