RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Read CSV

(RapidMiner Studio Core)

 

概要

このオペレータは、指定されたCSVファイルからExampleSetを読み取ります。

 

詳細

CSVはカンマ区切り値の略語です。 CSVファイルは、データ(数値とテキストの両方)をプレーンテキスト形式で保存します。 例に対応するすべての値は、CSVファイルに1行として保存されます。 異なる属性の値は、区切り文字で区切られます。 セパレータは一定のままです。 ファイルの各行は、属性値を区切るために定数セパレーターを使用します。 「CSV」という用語は、属性値がコンマで区切られることを示唆していますが、他の区切り文字も使用できます。

CSVファイルをインポートする最も簡単な方法は、パラメータパネルから構成のインポートウィザードを使用することです。 すべてのパラメータは、パラメータパネルで直接設定することもできます。 オペレータの詳細については、パラメータの説明を参照してください。

CSVファイルを使用するプロセスを構築する前に、CSVファイルがExampleSetとして正しく読み取られることを確認してください。

 

他オペレータとの相違点

データアクセスグループおよびファイル/読み取りサブグループには、多くの読み取り<ソース>演算子があります。 たとえば、Excelの読み取り、URLの読み取り、SPSSの読み取り、XMLの読み取り、その他の演算子があり、さまざまなファイル形式からExampleSetを読み取ることができます。

 

入力

file (File)
オプションで、CSVファイルをファイルオブジェクトとして渡すことができます。 これは、Read Fileオペレータなどのファイル出力ポートを持つオペレータで作成できます。

 

出力

output (IOObject)
このポートは、入力ポートで提供されたCSVファイルから作成された構成セットを提供し、インポート構成ウィザードを介してインポートされるか、csvファイルパラメータに指定されたパスからロードされます。

 

パラメータ

Import_Configuration_Wizard
この使いやすいウィザードにより、CSVファイルをインポートするようにこのオペレータを簡単に構成できます。
レンジ:

csv_file
CSVファイルのパスはここで指定されます。 「ファイルを選択」ボタンを使用して選択することもできます。
レンジ:

column_separators
ここで、CSVファイルの列区切りを指定できます。 正規表現として提供することもできます。 Select Attributes Operatorとそのチュートリアルプロセスの説明を調べることで、正規表現を十分に理解できます。
レンジ:

trim_lines
このパラメータは、列の分割が実行される前に行をトリミングする必要があるかどうかを示します(最初と最後の空のスペースの除去)。 TAB( ‘\ t’)がセパレータとして使用される場合、このオプションは問題になる可能性があります。
レンジ:

use_quotes
このパラメータは、引用符を考慮するかどうかを示します。引用符を使用して、列区切り記号などの特殊文字を保存できます。たとえば、(、)が列区切り文字として設定され、( “)が引用符文字として設定されている場合、行(a、b、c、d)は4列の4つの値として変換されます。一方(” a 、b、c、d “)は単一の列値a、b、c、dとして変換されます。このパラメータがfalseに設定されている場合、引用符文字パラメータとエスケープ文字パラメータは定義できません。
レンジ:

quotes_character
このパラメータは引用符文字を定義し、use quotesがtrueに設定されている場合にのみ使用可能です。
レンジ:

escape_character
このパラメータは、引用符をエスケープするために使用される文字を指定し、use quotesがtrueに設定されている場合にのみ使用可能です。たとえば、( “)が引用符文字として使用され、( ‘\’)がエスケープ文字として使用される場合、(” yes “)は(yes)として翻訳され、(\” yes \ “)は( “yes “)として翻訳されます。
レンジ:

skip_comments
このパラメータは、CSVファイル内のコメント(存在する場合)を無視するために使用されます。このオプションがtrueに設定されている場合は、コメント文字パラメータを使用してコメント文字を定義する必要があります。
レンジ:

comment_characters
このパラメータは、コメント文字がtrueに設定されている場合に使用できます。これらの文字で始まる行は無視されます。この文字が行の途中にある場合、この文字の後にその行に来るものはすべて無視されます。コメント文字自体も無視されます。
レンジ:

parse_numbers
このパラメータは、数値を解析するかどうかを指定します。
レンジ:

decimal_character
この文字は、小数点文字として使用されます。
レンジ:

grouped_digits
このパラメータは、グループ化された数字を解析するかどうかを決定します。このパラメータがtrueに設定されている場合、グループ化文字パラメータを指定する必要があります。
レンジ:

grouping_character
この文字はグループ化文字として使用されます。この文字が数字の間にある場合、数字は結合され、この文字は無視されます。たとえば、CSVファイルに「22-14」が存在し、グループ化文字として「-」が設定されている場合、「2214」が保存されます。
レンジ:

infinity_string
このパラメータは、特定の無限大表現(「Infinity」など)を解析するように設定できます。設定されていない場合、ローカル固有の無限大表現が使用されます。
レンジ:string

date_format
このパラメータは、日付と時刻の形式を指定します。多くの事前定義オプションが存在しますが、ユーザーは新しい形式を指定することもできます。 CSVファイル列のテキストがこの日付形式と一致する場合、その列は自動的に日付タイプに変換されます。

一部の修正は、無効な日付値に対して自動的に行われます。たとえば、値「32-March」は自動的に「1-April」に変換されます。

数値として解釈できない値を含む列は、日付形式パラメータの日付と時刻のパターンと一致しない限り、名義と解釈されます。一致する場合、CSVファイルのこの列は自動的に日付として解析され、対応する属性は日付型になります。
レンジ:

first_row_as_names
このパラメータがtrueに設定されている場合、CSVファイルの最初の行に属性の名前があると見なされます。その場合、属性には自動的に名前が付けられ、CSVファイルの最初の行はデータ行として扱われません。
レンジ:

annotations
名前の最初の行がtrueに設定されていない場合、このパラメータの[リストの編集]ボタンを使用して注釈を追加できます。これにより、新しいメニューが開きます。このメニューを使用すると、任意の行を選択して注釈を割り当てることができます。名前、コメント、ユニットの注釈を割り当てることができます。行0にName注釈が割り当てられている場合、名前パラメータとして最初の行をtrueに設定することと同じです。行を無視する場合は、コメントとして注釈を付けることができます。このメニューの行番号はコメント行をカウントしないことに注意してください。
レンジ:

time_zone
ユーザーは、提供されたタイムゾーンのリストから任意のタイムゾーンを選択できます。
レンジ:

locale
ユーザーは、提供されているロケールのリストから任意のロケールを選択できます。
レンジ:

encoding
ユーザーは、提供されたエンコードのリストから任意のエンコードを選択できます。
レンジ:

read_all_values_as_polynominal
このオプションを使用すると、この演算子の型処​​理を無効にできます。すべての列は多項式属性として読み取られます。
レンジ:

data_set_meta_data_information
このパラメータにより、CSVファイルのメタデータを調整またはオーバーライドできます。列のインデックス、名前、タイプ、およびロールはここで指定できます。

Read CSVオペレータは、最初の数行を読み取り、発生する値をチェックすることにより、属性の適切なデータ型を自動的に決定しようとします。整数値には整数データ型が割り当てられ、実数値には実データ型が割り当てられます。数値として解釈できない値には、日付形式パラメータの形式と一致しない限り、名目上のデータ型が割り当てられます。

データセットのメタデータ情報パラメータを使用すると、この自動割り当てを調整または上書きできます。
レンジ:

read_not_matching_values_as_missings
このパラメータがtrueに設定されている場合、予期される値タイプと一致しない値は欠損値と見なされ、「?」に置き換えられます。たとえば、「abc」が整数列に書き込まれている場合、欠損値として扱われます。 CSVファイルの疑問符(?)も欠損値として読み取られます。
レンジ:

data_management
このパラメータは、データが内部的にどのように表されるかを決定します。ユーザーは提供されたリストから任意のオプションを選択できます。
レンジ:

 

チュートリアルプロセス

CSVファイルを読む
(オプション)次のテキストをテキストファイルに保存します。

att1,att2,att3,att4 # row 1

80.6, yes , 1996.JAN.21 ,22-14 # row 2

12.43,”yes”,1997.MAR.30,23-22 # row 3

13.5,\”no\”,1998.AUG.22,23-14 # row 4

23.3,yes,1876.JAN.32,42-65# row 5

21.6,yes,2001.JUL.12,xyz # row 6

12.56,”,_?”,2002.SEP.18,15-90# row 7

これはサンプルCSVファイルです。

(オプション)csvファイルパラメータにパスを指定するか、[ファイルを選択]ボタンを使用して、指定されたチュートリアルプロセスでこれを読み込むことができます。

プロセスを実行し、結果ビューの結果をCSVファイルと比較します。プロセスは次のアクションを実行します。

「#」はコメント文字として定義されているため、「row {number}」はすべての行で無視されます。名前パラメータとしての最初の行がtrueに設定されているため、att1、att2、att3、およびatt4が属性名として設定されます。属性att1は実数、att2は多項式、att3は日付、att4は実数として設定されます。属性att4では、グループ化された数字パラメータがtrueに設定され、グループ化文字として「-」が指定されているため、「-」文字はすべての行で無視されます。行2では、トリムラインパラメータがtrueに設定されているため、値の先頭と末尾の空白は無視されます。行3では、use quotesがtrueに設定されているため、引用符は無視されません。引用符内のコンテンツは属性att2の値として取得されます。行4では、(\ “no \”)が引用符で囲まれた(no)と見なされるため、エスケープ文字が「\」に設定されます。行5では、日付値は「JAN.32」から「Feb.1」に自動的に修正されます。行6では、属性att4の無効な実数値は「?」に置き換えられます。欠落パラメータとして値が一致しない読み取りがtrueに設定されているためです。行7では、引用符を使用して、列区切り記号(、)および疑問符を含む値として特殊文字を取得します。

 

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル