Read C4.5
(Advanced File Connectors)
概要
この演算子は、C4.5形式で指定されたデータとメタを読み取ることができます。
詳細
C4.5形式(名前とデータファイル)で指定されたデータをロードします。両方のファイルは同じディレクトリにある必要があります。 C4.5ファイルの1つ(データファイルまたは名前ファイル)またはファイルステムのみを指定できます。
「foo」という名前のデータセットの場合、foo.dataとfoo.namesの2つのファイルがあります。 .namesファイルにはデータセットが記述され、.dataファイルにはデータセットを構成する例が含まれています。
ファイルには、一連の識別子と数字が含まれ、構文がいくつか含まれています。 A | (垂直バー)は、行の残りがコメントとして無視されることを意味します。各識別子は、コンマ、疑問符、またはコロンを含まない文字列で構成されます。埋め込みwhitespceも使用できますが、複数の空白は単一のスペースに置き換えられます。
.namesファイルには、データセットのクラス、属性、および値を説明する一連のエントリが含まれています。各エントリはピリオドで終了できますが、ピリオドが行の最後の場合は省略できます。ファイルの最初のエントリには、クラスの名前がコンマで区切られてリストされています。連続する各行は、.dataファイルに表示される順序で、次の形式で属性を定義します。
attribute-name : attribute-type
attribute-nameは上記の識別子であり、その後にコロンが続き、次に属性タイプがあります。
o continuous:属性に連続値がある場合。
o discrete [n]:属性が取ることができる値の数を示す整数が続く「離散」という単語(推奨されません。名目上の属性を定義するために以下に示す方法を使用してください)
o [list of identifiers]:これは、列挙された値を持つ個別の、つまり名目上の属性です(これは、個別の属性に推奨される方法です)。 識別子はコンマで区切る必要があります。
o ignore:これは、属性を無視する必要があることを意味します-使用されません。 これはRapidMinerではサポートされていません。属性を無視し、ロードされたサンプルセットから削除する場合は、ロード後に属性選択演算子のいずれかを使用してください。
以下に.namesファイルの例を示します。
good, bad. dur: continuous. wage1: continuous. wage2: continuous. wage3: continuous. cola: tc, none, tcf. hours: continuous. pension: empl_contr, ret_allw, none. stby_pay: continuous. shift_diff: continuous. educ_allw: yes, no. …
Foo.dataには、行ごとに1つの例、コンマで区切られた属性値、最後のクラス、「?」で表される欠損値の形式のトレーニング例が含まれています。 例えば:
2,5.0,4.0,?,none,37,?,?,5,no,11,below_average,yes,full,yes,full,good 3,2.0,2.5,?,?,35,none,?,?,?,10,average,?,?,yes,full,bad 3,4.5,4.5,5.0,none,40,?,?,?,no,11,average,?,half,?,?,good 3,3.0,2.0,2.5,tc,40,none,?,5,no,10,below_average,yes,half,yes,full,bad …
出力
output (IOObject)
このポートは、メタデータとともに表形式でC4.5ファイルを配信します。 この出力は、Retrieveオペレータの出力に似ています。
パラメータ
c45_filestem
C4.5名前ファイル、データファイル、またはファイルステム(拡張子なし)へのパス。 両方のファイルは同じディレクトリにある必要があります。
レンジ:filename
datamanagement
データが内部的にどのように表現されるかを決定します。
レンジ:selection
decimal_point_character
小数点として使用される文字。
レンジ:char
encoding
ファイルの読み取りまたは書き込みに使用されるエンコード。
レンジ:selection