デザイン画面
RapidMiner GUIの紹介ビデオもご覧ください。
RapidMiner Studioは予測分析のためのビジュアルワークフローデザイナーであり、アナリティクスチームの全員にデータサイエンスと機械学習を提供します。
どんな種類の新しいプロジェクトに取り組む際でも、多くの場合、最初のステップはホワイトボードに向かってワークフローを計画し、ゴールに至るまでの主要なステップを定めることになります。あなたがデータサイエンティストであれば、ワークフローには通常以下のステップのうち1つ以上が含まれています。
- データのインポート
- データの準備
- モデルの構築
- モデルの検証
- モデルの適用
RapidMiner Studioはホワイトボードのワークフローをソフトウェア内の「デザイン画面」で実装します。デザイン画面には多数のパネルが含まれています。
- データ、プロセス、結果はリポジトリに保存されます。
- すべてのワークフローの必須要素をオペレータと呼びます。
- オペレータはポートを介して接続されます。1つ目の出力は2つ目の入力として渡されます。
- データの変換や分析を行うオペレータが繋がったセットをプロセスと呼びます。
- オペレータの動作はパラメータを変更することで設定できます。
- オペレータの動作はヘルプを読むことで確認できます。
それぞれの用語については、以下で詳しく見ていきます。
デフォルトビュー
プロセス
プロセス: データの変換や分析を行うオペレータが繋がったセット
別名:フロー、プログラム、パイプライン、ダイアグラム
あなたのゴールは、プロセスを完成させること、つまり結果を生成するオペレータが繋がったセットを作成することです。例えば、プロセスではデータセットを読み込み、予測モデルを構築することができます。すべてのオペレータを接続し、パラメータを設定したら、画面上部にある実行 ボタンを押すと、結果が結果画面に表示されます。
「プロセスの実行」で説明するように、プロセスを実行する方法は1つだけではありません。以下の方法で実行することができます。
- ローカル
- バックグラウンド
- RapidMiner AI Hub
- RapidMiner AI Hubのスケジュール実行
プロセスの規模が大きくなるにつれて、その複雑さを管理する方法が必要になります。
- オペレータのグループを単一の Subprocessオペレータに移動させることで、複雑さを隠すことができます。
- Execute Processオペレータを使用して、別のプロセス内からプロセスを実行することができます。
プロセスをリポジトリに保存するには、メインメニューからファイル > 保存を選択します。
プロセスをXMLファイルにエクスポートすることで、簡単にプロセスを共有することができます。
- プロセスをエクスポートするには、ファイル > プロセスをエクスポートを選択します。エクスポートダイアログでは、ファイルを .rmp または .xmlとして保存することができます。これらのファイル形式はどちらも同じ(XML)です。
- プロセスをインポートするには、ファイル > プロセスをインポートを選択します。
ポート
プロセスを構築するには、各オペレータの出力を、ポートを介して次のオペレータの入力に接続する必要があります。2 つのポートを接続するには、それぞれのポートをクリックします。ポートにカーソルを合わせると、追加情報のツールチップが表示されます。2つのオペレータを接続する場合は、1つ目の出力ポートと2つ目の入力ポートに互換性があることを確認する必要があります。互換性がない場合は、エラーメッセージが表示されます。各オペレータの入力ポートと出力ポートは、オペレータ ヘルプに記載があり、全ポートのリストは用語集に記載されています。
結果画面で結果を表示したい場合は、プロセス内の最後のオペレータをプロセスパネルの右側にある結果ポート(“res”)に接続する必要があります。
ヒント: 出力ポートをダブルクリックすると、次に利用可能な結果(“res”)ポートに接続されます。
次の例は、Excelファイルからのデータを(1)読み込み、(2)リポジトリに保存し、(3)結果画面に表示するという簡単な処理を示しています。
簡単なプロセス
次のスクリーンショットは、オートモデルによって生成された、複雑なプロセスを示しています。
複雑なプロセス
リポジトリ
リポジトリ: データを保存する中心的なエンティティです。接続、データ、プロセス、結果をローカルまたはリモートで保持します。
別名:フォルダ、ワークスペース、プロジェクト
RapidMiner Studioで作業する際には、作業内容を保存する場所が必要です。リポジトリを使用して、以下を保存することができます。
- 接続
- データ
- プロセス
- 結果
- 任意のファイル(RapidMiner Studio 9.7の場合)
RapidMiner 9.7から、いくつかのリポジトリの概念が異なることに注意してください。
レガシーリポジトリ | RapidMiner Studio 9.6 以前のバージョンでは、このリポジトリが標準リポジトリで、バージョン管理はなく、ファイルタイプも限定されていました。レガシーリポジトリを作成することはできませんが、以前に作成したレガシーリポジトリを使用することや、それらを新しいリポジトリに移行することはできます。
RapidMiner AI Hub上のリモートリポジトリはこのタイプのままです。 |
リモートリポジトリ | RapidMiner AI Hubの各インスタンスは、RapidMiner Studioのレガシーリポジトリと同じ特徴(バージョン管理がなく、ファイルタイプが限定的)を持つ独自のセントラルリポジトリをまだ持っています。 |
リポジトリ(ローカル) | RapidMiner Studio 9.7では、ローカルリポジトリは任意のファイルタイプをサポートしていますが、バージョン管理はサポートしていません。このタイプのリポジトリは、RapidMiner AI Hubには対応していません。
リポジトリ内のRapidMiner以外のファイルをダブルクリックすると、そのファイルタイプの標準アプリケーションで開きます。プロセスパネルにRapidMiner以外のファイルをドラッグすると、Open Fileオペレータが作成されます。Python Scriptingエクステンションなどのエクステンションは、PythonスクリプトをプロセスパネルにドラッグするとExecute Pythonオペレータが作成されるように、追加機能を提供している場合があります。 |
プロジェクト | RapidMiner Studio 9.7では、プロジェクトはバージョン管理と任意のファイルタイプの両方をサポートしています。リポジトリと同じように動作しますが、バージョン管理が追加されています。
RapidMiner Studio と RapidMiner AI Hubのプロジェクトについてのドキュメントの記述通り、プロジェクトは常にローカルコンポーネントとサーバーコンポーネントの両方を持ち、両者は定期的に同期されます。 |
リポジトリは接続 やプロセス(ファイル > プロセスの保存)を保管する基本的な場所です。データや結果、その他のファイルをリポジトリに保存するかどうかはユースケースによって異なります。
まず、データはおそらくファイルまたはデータベースにあります。RapidMiner Studioはデータのインポートを支援するために、Read Excel や Read Databaseなど、多数のオペレータを提供しています。データインポートウィザードを起動するには、リポジトリパネルでデータのインポートをクリックするか、メインメニューからファイル > データのインポートを選択します。
データとプロセスが与えられれば、結果はいつでも再生成できますが、結果をリポジトリに格納するのには以下のような理由があります。
- 結果が大規模なデータセットに基づく複雑なモデルの場合、結果の再生成に時間がかかります。
- RapidMiner AI Hub上でプロセスを実行している場合、RapidMiner AI HubにはRapidMiner Studioの結果画面に相当するものがないため、(Storeオペレータを使用して)結果を保存する必要があります。
バンドルリポジトリ
RapidMiner Studioにバンドルされているリポジトリは、新規ユーザーにとっても、経験豊富なユーザーにとっても、非常に貴重なリソースです。これらのリポジトリには、豊富なサンプルデータセットとサンプルプロセスが解説とともに提供されています。
- Training Resourcesリポジトリは、オンラインのRapidMiner Academyのトレーニングレッスンやコースの手引きとして設計されたデータセットとプロセスの大規模なセットです。これらの無料コースを利用して、スキルを習得することをお勧めします。
- Samplesリポジトリには、Samples > Time SeriesにあるTime Seriesの例を含む、追加のデータセットとプロセスが含まれています。
- Community Samplesリポジトリは、RapidMinerチームではなく、RapidMinerユーザーコミュニティのトップユーザーによって公開されたデータセットとプロセスの特別なコレクションです。各プロセスには、著者名、目的の簡単な説明、およびそれを元にしたスレッドへのリンクがヘッダーに含まれています。このリポジトリのプロセスは必ずしも公開された通りに実行されるとは限らないため、使用する前に各プロセスに付随するオンラインコメントを読むことを推奨します。
オペレータ
オペレータ: プロセスの要素である各オペレータはパラメータの選択に応じて、入力を取得し、出力を作成します。
別名: 関数、式、ノード
RapidMiner Studioを効果的に使用するためには、そのオペレータについて学ぶ必要があります。RapidMiner Studioには何百ものオペレータがあるため、必要なオペレータを見つける方法を学ぶことが作業の大部分を占めています。検索には、階層検索 と キーワード検索の2つの主な方法があります。また、RapidMinerコミュニティもサポートの源です。
見つけたオペレータに期待通りの機能があるかを確認するには、ヘルプを読んでください。
希望するオペレータが見つかった際、プロセスパネルに入れる方法は少なくとも3つあります。
- オペレータをドラッグアンドドロップする方法
- オペレータをダブルクリックする方法
- オペレータを右クリックし、コンテキストメニューからオペレータの差し込みを選択する方法
階層検索
オペレータパネルのフォルダの階層は、典型的なデータサイエンスワークフローを反映しています。
- Data Access
- Blending
- Cleansing
- Modeling
- Scoring
- Validation
- Utility
- Extensions
これらのフォルダとそのサブフォルダを開くことで、利用可能なものを知ることができます。
この同じ階層構造は各オペレータのヘルプを含むドキュメントのウェブサイトで調べることができます。
キーワード検索
別の方法として、キーワード検索があります。オペレータパネルには検索フィールドがありますが、ユーザーインタフェースの右上にあるグローバル検索を使用することをお勧めします。グローバル検索では、オペレータだけでなく、リポジトリのデータやプロセス、マーケットプレイスのエクステンション、さらにはメニューから実行できるアクションも検索できます。
ヒント: グローバル検索で表示されたオペレータにカーソルを合わせると、そのオペレータのヘルプがすぐにヘルプパネルに表示されます。最初にヘルプパネルを最大化すると、検索で表示されるすべてのオペレータのヘルプページをすばやく表示できます。
コミュニティ検索(Wisdom of Crowds)
プロセスを構築し始め、ヒントを探しているなら”Wisdom of Crowds”が役立ちます。”Wisdom of Crowds”は、他のRapidMinerユーザーの利用パターンに基づいたオプトインレコメンダーシステムです。すでにプロセスに含まれているオペレータをもとに、どのオペレータが必要になるかを予測してくれます。有効にするには、Activate Wisdom of Crowdsボタンをクリックしてください。メニュー項目の設定 > プリファレンス > Recommender > Enable operator recommendationsでいつでも有効/無効にすることができます。
それでもお探しのオペレータが見つからない場合は、RapidMinerコミュニティがお役に立つかもしれません。RapidMinerのデータサイエンスチームは積極的にコミュニティに貢献しています。
パラメータ
パラメータ: オペレータの動作を設定するためのオプションです。
パラメータパネルの内容はオペレータによって異なります。プロセスパネルに表示されているオペレータを選択すると、パラメータパネルにそのオペレータを設定するためのオプションが表示されます。RapidMiner Studioには、独自の機能を持つ多くのオペレータが含まれているため、パラメータの範囲も非常に多様です。デフォルトでは、RapidMiner Studioはより一般的に使用されるパラメータのみを表示します。利用可能なすべてのパラメータを表示するには、高度なパラメータを表示をクリックしてください。
パラメータを理解するには、オペレータについて詳しく知る必要があります。そのパラメータのヘルプを読むことから始めると良いでしょう。または、関心のあるパラメータの横にある情報アイコンにカーソルを合わせると、ヘルプテキストが表示されます。
ヘルプ
ヘルプ: 現在のオペレータのヘルプテキストを表示します。
ヘルプパネルの内容も、オペレータによって異なります。プロセスパネルに表示されているオペレータを選択すると、そのオペレータのヘルプテキストがヘルプパネルに表示されます。ヘルプパネルには、以下の有用な情報が表示されます。
ヘルプパネル内で例をクリックすると、RapidMiner Studioの関連するチュートリアルプロセスがすぐに開き、関連するアプリケーションを調べることができます。
RapidMiner Studio内で提供されるオペレータのヘルプテキストはすべてオンラインでも利用可能です。
デザイン画面の再設定
デザイン画面をデフォルトのパネル設定に戻すには、ビュー > デフォルトパースペクティブに戻すを選択します。
画面のスペースを最適化するには、パネルの再編成を検討するとよいでしょう。まず、任意のパネルのタブを右クリックして、以下のいずれかを選択してください。
- Detach – パネルがRapidMiner Studioから切り離されます。
- 最大化 – パネルが画面全体に拡大されます。
- 閉じる – パネルがユーザーインタフェースから削除されます。
例えば、ヘルプを読むためにもっとスペースが必要な場合は、ヘルプパネルを最大化することができます。また、パネルタブの復元ボタンをクリックすることで、ユーザーインタフェースを元の状態に戻すことができます。パネルが本当に必要ない場合は、パネルを閉じることができます。閉じたパネルは、ビュー > パネルを表示で復元できます。
ドラッグ&ドロップで追加設定が可能です。
- パネルのサイズ変更が可能
- パネルの移動が可能
- パネルをタブとして表示することが可能
以下のテーブルは、利用可能なパネルをまとめたもので、ほとんどが表示されていません(例えば、プロセスのXML式を表示するXMLパネルなど)。太字で表示されているパネルはデフォルトのパネルです。このリストのパネルを表示するには、メニューのビュー > パネルを表示を選択します。
パネル | 概要 |
---|---|
アプリケーションオブジェクト | RapidMiner AI Hub Appをシミュレート |
Background Monitor | バックグラウンドプロセスと結果の管理 |
環境 | プロセスとマクロの高度な設定 |
Data editor | スプレッドシートのようなデータ操作を提供 |
ヘルプ | 選択したオペレータの概要を表示 |
ログ | 記録したイベントを表示 |
マクロ | 定義されたマクロの概要を表示 |
オペレータ | プロセスに追加できるすべてのオペレータを表示 |
概要 | 大きなプロセスを縮小して表示 |
パラメータ | プロセス内のオペレータの動作を設定 |
問題 | プロセス内の潜在的な問題を表示 |
プロセス | プロセスの作成およびデザイン |
リポジトリ | データとプロセスを管理 |
システムモニタ | RAMの使用量を表示 |
履歴 | このセッションのすべてのプロセス結果の履歴を表示 |
AI Hub Monitor | RapidMiner AI Hub上で実行しているプロセスを表示 |
Snapshot History | バージョン管理下のプロジェクトのスナップショット履歴 とステータスを表示 |
階層構造 | プロセスの階層構造を表示 |
XML | プロセスをXML形式で表示 |
デザイン画面をデフォルトのパネル設定に戻すには、ビュー > デフォルトパースペクティブに戻すを選択します。