RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Execute Python

概要

Pythonスクリプトを実行します。

詳細

この演算子を使用する前に、[設定]-> [設定]メニューでPythonインストールへのパスを指定する必要があります(Mac OSでは[RapidMiner Studio]-> [設定]を選択します)。表示される設定パネルで、[Pythonスクリプト]タブを選択します。サンプルセットはpandas.DataFramesに変換されるため、Pythonインストールにはpandasモジュールを含める必要があります。 [デフォルトのPythonを使用する]チェックボックスをオフにすると 、グローバル設定を使用する代わりに、この演算子の個々のPythonバイナリを構成できます。

この演算子は、 スクリプトファイルのポートまたはパラメーターを介して提供されたスクリプト 、またはスクリプトパラメーターで指定されたスクリプトのいずれかを実行します。スクリプトの引数は入力ポートに対応しており、サンプルセットはpandas.DataFramesに変換されます。同様に、スクリプトによって返された値は、pandas.DataFramesがサンプルセットに変換されるオペレーターの出力ポートで配信されます。

オペレーターはconda(anaconda)仮想環境、virtualenvwrapper仮想環境をサポートします。Pythonバイナリーを選択するには、それにファイルシステムのフルパスも指定します。必要なPythonの選択方法の詳細については、このヘルプページの「パラメーター」セクションを参照してください。 拡張機能を設定する必要がある場合があることに注意してください。これには、[設定]-> [設定]メニューに移動します(Mac OSでは[RapidMiner Studio]-> [設定]を選択します)。表示される設定パネルで、[Pythonスクリプト]タブを選択します。必要に応じて、ここで設定を編集します。

condaの使用: conda Pythonディストリビューションをデフォルト以外の場所にインストールした場合、Python Scripting Extensionのグローバル設定にインストールディレクトリといくつかのサブディレクトリを追加する必要がある場合があります。これには、[設定]-> [設定]メニューに移動します(Mac OSでは[RapidMiner Studio]-> [設定]を選択します)。表示される設定パネルで、[Pythonスクリプト]タブを選択します。 condaインストールのインストールディレクトリを検索パスのリストに追加します。 Windowsではconda_install_dir \ Scriptsサブディレクトリを追加する必要があり、LinuxおよびMac OSではconda_install_dir / binサブディレクトリも追加する必要があります。

Pythonのコンソール出力は、ログビューに表示されます([表示]-> [ビューの表示]-> [ログ])。

入力

  • スクリプトファイル (ファイル)実行するpythonスクリプトを含むファイル。ファイルは、スクリプトパラメータルールに準拠する必要があります。このポートはオプションです。ファイルは、スクリプトファイルパラメーターを介して提供することもできます。
  • 入力スクリプトオペレーターは、複数の入力を持つことができます。入力は、サンプルセット、ファイルオブジェクト、または「Pythonの実行」演算子によって生成されたPythonオブジェクトである必要があります。

出力

  • 出力スクリプトオペレーターは複数の出力を持つことができます。出力は、サンプルセット、ファイルオブジェクト、またはこの演算子によって生成されたPythonオブジェクトのいずれかです。

パラメーター

  • script実行するPythonスクリプト。接続された入力ポートと同じ数の引数を持つ「rm_main」という名前のメソッドを定義するか、代わりに* args引数を使用して、動的な数の属性を使用します。メソッド「rm_main」の戻り値は、接続された出力ポートに配信されます。メソッドがタプルを返す場合、タプルの単一のエントリが出力ポートに配信されます。データ型「pandas.DataFrames」からのエントリは、サンプルセットに変換されます。ファイルはファイルオブジェクトに変換され、他のPythonオブジェクトはシリアル化され、他の「Pythonを実行」演算子で使用したり、リポジトリに保存したりできます。シリアル化されたPythonオブジェクトは2 GB未満でなければなりません。

     

    入力ポートを介してサンプルセットをスクリプトに渡すと、サンプルセットのメタデータ(タイプとロール)がスクリプトで利用可能になります。サンプルデータでは、関連付けられたpandas.DataFrameの属性rm_metadataを読み取ることでアクセスできます。 data.rm_metadataは、属性名から属性タイプと属性ロールのタプルまでの辞書です。

     

    属性rm_metadataを設定することにより、pandas.DataFrameとして返すサンプルセットのメタデータに影響を与えることができます。このディクショナリで属性タイプを指定しない場合、Pythonのデータタイプを使用して決定されます。独自のロールを指定するか、「ラベル」などのRapidMinerの標準ロールを使用できます。

     

    Pythonオペレーターでのメタデータ処理の詳細については、以下のチュートリアルプロセス「メタデータ処理」を確認してください。

    スクリプトファイルがスクリプトファイルのポートまたはパラメーター(ポートが優先)を介して提供される場合、このパラメーターの値の代わりにそのスクリプトが使用されます。

    範囲:テキスト

  • script_file実行するPythonスクリプトを含むファイル。ファイルは、 スクリプトパラメータルールに準拠する必要があります。このパラメーターはオプションです。 範囲:ファイル名
  • use_default_pythonRapidMiner Studioグローバル設定で定義されたPythonバイナリまたは環境を使用します。グローバル設定には、[設定]-> [設定]メニューからアクセスできます(Mac OSでは[RapidMiner Studio]-> [設定]を選択します)。表示される設定パネルで、[Pythonスクリプト]タブを選択します。ここで、デフォルトを定義できます。

    範囲:ブール

  • package_managerこのパラメーターは、 デフォルトのPythonを使用がfalseに設定されている場合にのみ使用できます。このパラメーターは、オペレーターが使用するパッケージマネージャーを指定します。現在、Conda / Anaconda / MinicondaおよびVirtualenvwrapperがサポートされていますが、好みのPythonバイナリへのフルパスを定義することもできます。

    範囲:選択

  • conda_environmentこのパラメーターは、 デフォルトのpythonがfalseに設定され、 パッケージマネージャーconda(anaconda)に設定されている場合にのみ使用できます。このパラメーターは、このオペレーターが使用するconda仮想環境を指定します。

    範囲:選択

  • venvw_environmentこのパラメーターは、 デフォルトのpythonがfalseに設定され、 パッケージマネージャーvirtualenvwrapperに設定されている場合にのみ使用できます。このパラメーターは、このオペレーターが使用するvirtualenvwrapper仮想環境を指定します。

    範囲:選択

  • python_binaryこのパラメーターは、 デフォルトのpythonを使用がfalseに設定され、 パッケージマネージャー特定のpythonバイナリーに設定されている場合にのみ使用できます。このパラメーターは、このオペレーターが使用するpythonバイナリーへのパスを指定します。

    範囲:文字列

チュートリアルプロセス

Pythonを使用したクラスタリング

ランダムデータが生成され、Pythonスクリプトに送られます。スクリプトは、マクロで指定されている数のクラスターを使用して、Pythonでデータをクラスター化します。結果のExampleSetには、「cluster」属性にクラスターが含まれます。

Pythonを使用してモデルを構築して適用

このチュートリアルプロセスでは、「Pythonを実行」演算子を使用して、「Deals」データを使用してデシジョンツリーモデルを構築し、次に「Deals Testset」データに適用します。データを使用する前に、名目値が一意の整数に変換されます。最初のPythonスクリプトオペレーター「モデルの構築」がモデルを構築し、その出力ポートに配信します。 2番目のPythonスクリプト演算子「モデルを適用」は、このモデルをテストセットに適用し、予測と呼ばれる列を追加します。 「ロールの設定」で「ラベル」および「予測」列を指定した後、結果を表示できます。

Pythonを使用してプロットを作成し、リポジトリに保存

このチュートリアルプロセスでは、「Execute Python」演算子を使用して、最初にサンプルデータを取得し、次にプロットを作成して、両方を出力ポートに返します。プロセスをリポジトリに保存してください。データはサンプルセットとして表示され、プロットは画像としてリポジトリに保存されます。

Pythonを使用してファイルからサンプルセットを読み取る

このチュートリアルプロセスでは、「Pythonを実行」演算子を使用して、サンプルデータをcsvファイルに保存します。 2番目の「Execute Python」演算子はこのファイルを受け取り、データを読み取り、データの一部を出力ポートに返します。結果はサンプルセットです。

メタデータ処理

このチュートリアルプロセスでは、「Pythonを実行」演算子内の受信サンプルセットのメタデータにアクセスする方法を示します。また、今後のサンプルセットのメタデータを設定する方法についても説明します。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル