RapidMiner and Python
このページでは、データ分析にPythonを使用する方へ向けた、RapidMinerをより使いこなすための情報を集めています。また、RapidMinerの実績ある手法(オペレータとプロセス)を使用して作業したいチームの人たちとも交流しながら、分析をチームワークに変えることができる方法をすべて紹介します。
RapidMinerからPythonの呼び出し
RapidMinerユーザーとしてプロジェクトに取り組む中で、RapidMinerプロセスからPythonスクリプトを使用するとより便利になる場合があります。さらにもう一歩踏み込んで、Pythonで書かれた学習モデルやETL変換をRapidMinerのオペレータ化し、それをチームの他の人に配布することができます。以下のような場合に役立ちます。
- データの前処理やモデリングをPythonコードで書いたほうが簡単で便利だとわかった場合
- チーム内のメンバーが作成したPythonコードの一部を再利用したい場合
- 最新のPythonライブラリを使用してRapidMinerを拡張したい場合
PythonからRapidMinerの呼び出し
Python(Jupyter Notebookなど)を操作する中で、RapidMinerのプロジェクトやリポジトリに保存されたデータやメタデータなどにアクセスしたい場合があります。このときにRapidMiner StudioやRapidMiner AI Hubを呼び出し、プロセスを動作させることができます。以下のような場合に役立つPythonライブラリを提供します。
- RapidMinerのリポジトリやプロジェクトに保存されたデータを活用したい場合
- RapidMinerのプロセスを動作させて、その出力をPythonコード内で使用したい場合
- コード内で認証情報を処理する手間をかけずに外部データソースにアクセスしたい場合
RapidMiner Notebooks
RapidMiner NotebooksはAI Hubの機能の一つとして提供される、慣れ親しんだNotebookベースの開発環境です。これにより、コードに精通したデータサイエンティストやデータエンジニアは慣れた方法で作業を行うことができ、開発やデプロイにRapidMinerを使用するチームメンバーとも一緒に作業を行うことが簡単にできます。RapidMiner Notebooksは以下のような場合に役立ちます。
- 会社がRapidMiner AI Hubを導入したが、ノートブック環境で作業を行い続けたい場合
- RapidMinerプロジェクトを使用し、他の人と協力して開発をしている場合
- Notebookベースのプロジェクトで、RapidMinerのプロジェクトやリポジトリに保存されているデータセットを使用する必要がある場合
- Notebookベースのプロジェクトの入力に、RapidMinerのプロセスの出力が必要な場合
構造
この図は、RapidMiner AI HubでPythonコードの開発と実行の統合を実現する、高レベルのコンポーネントについて説明しています。これによって、手動での設定がほとんど、または全て不要で、上記の全ユースケースを実現することができます。
破線の矢印で示されているように、Platform Adminは、AI Hub全体のコーディング環境を一元管理することができます。
残りの矢印は、Pythonライブラリを使用してPythonコードからRapidMinerのプロセスを実行できることを示しています。
Python Scriptingエクステンションを使用することで、(Webサービスのように実行するRapidMiner Server、定期実行や一時的なバッチ処理を行うRapidMiner Job Agentsなど)RapidMinerのさまざまなコンポーネントでPythonコードを実行することができます。