RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Read Excel

概要

この演算子は、指定されたExcelファイルからExampleSetを読み取ります。

説明

この演算子を使用して、Microsoft Excelスプレッドシートからデータをロードできます。この演算子は、Excel 95、97、2000、XP、および2003からデータを読み取ることができます。ユーザーは、ワークブック内のどのスプレッドシートをデータテーブルとして使用するかを定義する必要があります。テーブルは、各行が例であり、各列が属性を表すような形式でなければなりません。 Excelシートの最初の行は、パラメーターで指定できる属性名に使用される場合があることに注意してください。データテーブルはシート上のどこにでも配置でき、任意の書式設定命令、空の行、空の列を含めることができます。 Excelで欠落しているデータ値は、空のセルまたは「?」のみを含むセルで示される必要があります。

この演算子の完全な理解については、パラメーターのセクションをお読みください。 Excelファイルをインポートする最も簡単で最短の方法は、[パラメーター]パネルからインポート構成ウィザードを使用することです。多少の手間がかかる場合がありますが、最善の方法は、最初に[パラメーター]パネルですべてのパラメーターを設定してからウィザードを使用することです。 Excelファイルを使用してプロセスを構築する前に、Excelファイルが正しく読み取られることを確認してください。

入力

  • ファイル (ファイル)Excelファイルは、Read Fileオペレーターのようなファイル出力ポートを持つ他のオペレーターで作成できるファイルオブジェクトとして期待されています。

出力

  • 出力 (IOObject)このポートは、Excelデータを表形式でメタデータとともに配信します。この出力は、Retrieveオペレーターの出力に似ています。

パラメーター

  • import_configuration_wizardこのオプションを使用すると、ウィザードを使用してこの演算子を構成できます。この使いやすいウィザードにより、この演算子の使用が簡単になります。 範囲:
  • excel_file Excelファイルのパスはここで指定されます。 ファイル選択ボタンを使用して選択できます。 範囲:
  • sheet_selectionこのオプションを使用すると、シート番号とシート名の間でシート選択を変更できます。 範囲:
  • sheet_numberインポートするシートの番号をここで指定する必要があります。 範囲:整数
  • sheet_nameインポートするシートの名前をここで指定する必要があります。 範囲:文字列
  • imported_cell_rangeこれは必須パラメーターです。指定されたシートからインポートされるセルの範囲は、ここに示されています。 「xm:yn」形式で指定されます。「x」は範囲の最初のセルの列、「m」は範囲の最初のセルの行、「y」は範囲の最後のセルの列、 「n」は範囲の最後のセルの行です。 ‘A1:E10’は、行1〜10の最初の5列のすべてのセルを選択します。 範囲:
  • first_row_as_namesこのオプションがtrueに設定されている場合、Excelファイルの最初の行に属性の名前があると見なされます。次に、属性に自動的に名前が付けられ、Excelファイルの最初の行はデータ行として扱われません。 範囲:ブール
  • annotations名前パラメータとしての最初の行がtrueに設定されていない場合、新しいメニューを開くこのパラメータの[リストの編集]ボタンを使用して注釈を追加できます。このメニューを使用すると、任意の行を選択して注釈を割り当てることができます。 名前コメントユニットの注釈を割り当てることができます。行0にName注釈が割り当てられている場合、名前パラメーターとして最初の行をtrueに設定することと同じです。行を無視する場合は、 コメントとして注釈を付けることができます。 範囲:
  • date_format日付と時刻の形式はここで指定されます。多くの事前定義オプションが存在します。ユーザーは新しい形式を指定することもできます。 Excelファイルの列のテキストがこの日付形式と一致する場合、その列は自動的に日付型に変換されます 。一部の修正は、 日付タイプの値で自動的に行われます。たとえば、値「32-March」は自動的に「1-April」に変換されます。数値として解釈できない値を含む列は、 日付形式パラメーターの日付と時刻のパターンと一致しない限り、名義として解釈されます。その場合、Excelファイルのこの列は自動的に日付として解析され、対応する属性は日付型になります。 範囲:
  • time_zoneこれはエキスパートパラメータです。タイムゾーンの長いリストが提供されます。ユーザーはそれらのいずれかを選択できます。 範囲:
  • localeこれはエキスパートパラメータです。ロケールの長いリストが提供されます。ユーザーはそれらのいずれかを選択できます。 範囲:
  • read_all_values_as_polynominalこのオプションを使用すると、この演算子の型処​​理を無効にできます。すべての列は多項式属性として読み取られます。 Excelの日付を後で解析するには、属性の生成演算子で「date_parse(86400000 *(parse(date_attribute)-25569))」(-Mac Excel 2007の場合24107)を使用します。 範囲:ブール
  • data_set_meta_data_informationこのオプションは重要です。指定したExcelファイルから作成されたExampleSetのメタデータを調整できます。 列のインデックス名前タイプ 、および役割はここで指定できます。 Read Excelオペレーターは、最初の数行を読み取り、発生する値をチェックすることにより、適切なタイプの属性を判別しようとします。すべての値が整数である場合、属性は整数になります。同様に、すべての値が実数である場合、属性はreal型になります。数値として解釈できない値を含む列は、 日付形式パラメーターの日付と時刻のパターンと一致しない限り、名義として解釈されます。その場合、Excelファイルのこの列は自動的に日付として解析され、対応する属性はdate型になります 。自動的に決定されたタイプは、このパラメーターを使用してオーバーライドできます。 範囲:
  • read_not_matching_values_as_missingsこの値がtrueに設定されている場合、期待される値タイプと一致しない値は欠損値と見なされ、「?」に置き換えられます。たとえば、「abc」が整数列に書き込まれている場合、欠損値として扱われます。 Excelファイル内の疑問符(?)または空のセルも、欠損値として読み取られます。 範囲:ブール
  • data_managementこれはエキスパートパラメータです。長いリストが提供されます。ユーザーはこのリストから任意のオプションを選択できます。 範囲:

チュートリアルプロセス

ExcelファイルからExampleSetを読み取る

このプロセス例では、最初に「ゴルフ」データセットを「%{tempdir} /golf.xlsx」の下に保存します。データセットはExcelファイルのシート1にコピーされたため、シート番号パラメーターには値1が与えられます。シートの最初のセルはA1、最後に必要なセルはE15です。したがって、インポートされたセル範囲パラメーターは値 ‘A1:E15 ‘。シートの最初の行には属性の名前が含まれているため、名前パラメーターとしての最初の行がチェックされます。残りのパラメーターはデフォルト値で使用されました。プロセスを実行すると、Retrieveオペレーターを使用してリポジトリーから「ゴルフ」データ・セットを取得した場合とほぼ同じ結果が表示されます。ただし、メタデータには違いがあります。たとえば、ここでは属性のタイプと役割は「ゴルフ」データセットのものとは異なります。データセットのメタデータ情報パラメーターを使用して、属性の役割とタイプを変更できます。すべての属性が目的の役割とタイプであることを常に確認することをお勧めします。この例で重要な変更の1つは、Play属性の役割を変更することです。このデータセットで分類演算子を使用する場合は、その役割をラベルに変更する必要があります。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル