Read ARFF
(Advanced File Connectors)
概要
この演算子は、ARFFファイルの読み取りに使用されます。
詳細
この演算子は、機械学習ライブラリWekaから既知のARFF(属性関連ファイル形式)ファイルを読み取ることができます。 ARFFファイルは、一連の属性を共有するインスタンスのリストを記述するASCIIテキストファイルです。 ARFFファイルは、Weka機械学習ソフトウェアで使用するために、ワイカト大学のコンピューター科学部の機械学習プロジェクトによって開発されました。 ARFFファイル形式の基本と構造を理解するには、添付のプロセス例をご覧ください。 ARFFファイルが書き込まれるとき、属性の役割は保存されないことに注意してください。同様に、ARFFファイルが読み取られると、すべての属性の役割が通常に設定されます。
入力
file
ARFFファイルは、Read Fileオペレータなどのファイル出力ポートを持つ他のオペレータで作成できるファイルオブジェクトとして期待されています。
出力
output (IOObject)
このポートは、メタデータとともに表形式でARFFファイルを配信します。 この出力は、Retrieveオペレータの出力に似ています。
パラメータ
data_file
ARFFファイルのパスはここで指定されます。 ファイルの選択ボタンを使用して選択できます。
レンジ:filename
encoding
これはエキスパートパラメータです。 エンコードの長いリストが提供されます。 ユーザーはそれらのいずれかを選択できます。
レンジ:selection
read_not_matching_values_as_missings
これはエキスパートパラメータです。 このパラメータがtrueに設定されている場合、予期される値タイプと一致しない値は欠損値と見なされ、「?」に置き換えられます。 たとえば、「abc」が整数列に書き込まれている場合、欠損値として扱われます。 ARFFファイルの疑問符(?)も欠損値として読み取られます。
レンジ:boolean
decimal_character
この文字は、小数点文字として使用されます。
レンジ:char
grouped_digits
このパラメータは、グループ化された数字を解析するかどうかを決定します。 このパラメータがtrueに設定されている場合、グループ化文字パラメータを指定する必要があります。
レンジ:boolean
grouping_character
このパラメータは、グループ化された数字パラメータがtrueに設定されている場合にのみ使用できます。この文字はグループ化文字として使用されます。 数字の間にある場合、数字は結合され、この文字は無視されます。 たとえば、ARFFファイルに「22-14」が存在し、グループ化文字として「-」が設定されている場合、「2214」が格納されます。
レンジ:char
infinity_string
このパラメータは、特定の無限大表現(「Infinity」など)を解析するように設定できます。 設定されていない場合、ローカル固有の無限大表現が使用されます。
レンジ:string
チュートリアルプロセス
ARFFの基本
「アイリス」データセットは、Retrieve演算子を使用してロードされます。 ARFFファイルに「Iris」データセットを書き込むために、Write ARFF演算子が適用されます。サンプルの設定ファイルパラメータは「D:\ Iris」に設定されています。したがって、ARFFファイルは、コンピューターの「D」ドライブに「Iris」という名前で作成されます。このファイルを開いて、ARFFファイルの構造を確認します。
ARFFファイルには2つの異なるセクションがあります。最初のセクションはヘッダー情報で、その後にデータ情報が続きます。 ARFFファイルのヘッダーには、リレーションの名前と属性のリストが含まれています。リレーションの名前は、@ RELATIONステートメントの後に指定されます。 RapidMinerは関係を無視します。各属性定義は、@ ATTRIBUTEステートメントで始まり、その後に属性名とそのタイプが続きます。このサンプルプロセスの結果のARFFファイルは、ヘッダーで始まります。関係の名前は「RapidMinerData」です。リレーションの名前の後に、6つの属性が定義されます。
属性宣言は、@ ATTRIBUTEステートメントの順序付きシーケンスの形式を取ります。データセットの各属性には、その属性の名前とそのデータ型を一意に定義する独自の@ATTRIBUTEステートメントがあります。属性の宣言の順序は、ファイルのデータセクション内の列の位置を示します。たとえば、このサンプルプロセスの結果のARFFファイルでは、他のすべての属性宣言の最後に「ラベル」属性が宣言されています。したがって、「ラベル」属性の値は、データセクションの最後の列にあります。
ARFFで可能な属性タイプは次のとおりです。数値整数実数{nominalValue1、nominalValue2、…}明確な名義値のない名義属性の名義属性文字列(ただし、できるだけ頻繁に上記の名義定義を使用することをお勧めします) -format](現在RapidMinerではサポートされていません)
このプロセス例の結果のARFFファイルで、属性「a1」、「a2」、「a3」、および「a4」が実数型であることがわかります。属性「id」および「label」は名義型です。これらの名義属性を使用して、個別の名目値も指定されます。
ファイルのARFF Dataセクションには、データ宣言行@DATAと実際のサンプルデータ行が含まれています。各例は1行で表され、キャリッジリターンは例の終わりを示します。各例の属性値は、コンマで区切られています。これらは、ヘッダーセクションで宣言された順序で出現する必要があります(つまり、n番目の@ATTRIBUTE宣言に対応するデータは、常に例の行のn番目のフィールドです)。欠損値は単一の疑問符(?)で表されます。
パーセント記号(%)はコメントを示し、読み取り中は無視されます。スペースを含む属性名または値の例は、一重引用符( ‘)で囲む必要があります。 RapidMinerでは、スパースARFF形式は現在、数値属性でのみサポートされていることに注意してください。名目上の属性にもスパースデータファイルが必要な場合は、RapidMinerが提供するスパースデータファイルに他のオプションを使用してください。
Read ARFFオペレータを使用したARFFファイルの読み取り
Write ARFF演算子を使用して最初のサンプルプロセスで書き込まれたARFFファイルは、Read ARFF演算子を使用してこのサンプルプロセスで取得されます。 データファイルパラメータは ‘%{tempdir} / Iris’に設定されています。 他のすべてのパラメータはデフォルト値で使用されます。 プロセスを実行します。 結果は、RapidMinerリポジトリの元のIrisデータセットと非常に似ていることがわかります。 Read ARFF演算子の結果では、すべての属性の役割が規則的であることに注意してください。 「id」および「label」属性の役割でさえ、通常に設定されます。 これは、ARFFファイルが属性の役割に関する情報を保存しないためです。