Google Cloud Servicesコネクタの使用
このガイドでは、RapidMiner Studio 9.3で導入された新しい接続管理を対象としています。
古いレガシーGoogle Cloud Storage接続については9.2のドキュメントを参照してください。
Google Cloud Servicesコネクタを使用すると、RapidMiner Studioから直接Google Cloud Storageにアクセスでき、Google BigQueryに保存されているデータをクエリすることができます(後者の場合は、マーケットプレイスからダウンロードできるIn-Database Processingエクステンションが必要です)。
Google Cloud Storageでは、読み込みと書き込みの両方の操作がサポートされています。また、Loop Google Storageオペレータを使用して、Google Cloud Storageディレクトリ内の一連のファイルを読み込むこともできます。このドキュメントでは、以下の方法について説明します。
Google Cloud Storageアカウントの接続
Google Cloud Storageコネクタを使用する前に、新しいGoogle Cloud Storage接続を設定する必要があります。接続の設定には、Google Cloud Storageアカウントの接続詳細が必要です。これには、プロジェクトIDとアクセストークン、またはサービスアカウントの秘密鍵が含まれます。
- RapidMiner StudioでGoogle Cloud Services接続を保存するリポジトリを右クリックして、
Create Connectionを選択します。
または、Connections >Create Connectionをクリックし、以下のダイアログのドロップダウンからリポジトリを選択することも可能です。
- 新しい接続の名前を入力し、Connection TypeをGoogle Cloud Servicesに設定し、Createボタンをクリックします。
- SetupタブでGoogle Cloudアカウントの接続詳細を入力します。これには2つの代替オプションがあり、詳細は次の2つのステップを参照してください。
- 同意画面でRapidMinerにGoogle Cloudアカウントへのアクセスを許可した後に取得したアクセストークンを使用することができます。これはデフォルトのオプションです。Use Service Accountのチェックを外したままにして、以下の手順に従います。
- Access Tokenフィールドの右側にあるボタンをクリックして、アクセストークンで使用するサービス、通称アクセススコープを選択します。
- この接続で使用するサービスを選択します。In-Database Processingエクステンションをインストールしている場合は、Google BigQueryがオプションとしてここに表示されます
- Request access tokenをクリックすると、ブラウザでGoogleのウェブサイトが開きます。Google Cloudアカウントにログインしていない場合は、ここでログインする必要があります。Show URL insteadをクリックして、URLを手動でコピーできます。
- ALLOWボタンをクリックして、RapidMinerにGoogle Cloudアカウントへのアクセスを許可し、トークンを生成します。これでアクセストークンを確認できるページが表示されます。画面に表示されているコードをコピーします。
- RapidMiner Studioに戻り、アクセストークンを入力し、Completeをクリックします。
- 接続のProject IDも指定します。
- または、プロジェクトにサービスアカウントを設定することもできます。この場合は、Use Service Accountフラグにチェックを入れ、以下の手順に従います。
- サービスアカウントを設定したら、サービスアカウントのJSONキーを作成してダウンロードします。Private Key File Contentフィールドの横にあるファイル選択ボタンを使用して、キーを含むJSONファイルを選択します。または、JSONファイルの内容全体を(テキストエディタやクリップボードを使用して) Private Key File Contentフィールドに貼り付けることもできます。
- Edit Access Scopes…ボタンをクリックして、この接続で使用するサービスを選択します。In-Database Processingエクステンションをインストールしている場合は、Google BigQueryがオプションとしてここに表示されます。
- 接続のProject IDも指定します。
- 必須ではありませんが、ボタンをクリックして、新しいGoogle Cloud Services接続をテストすることをお勧めします。テストに失敗した場合は、接続詳細が正しいかどうかを確認してください。この接続に複数のGoogle Cloud Servicesを選択している場合、選択したサービスのうち少なくとも1つに正常に接続できればテストは成功しますのでご注意ください。
- Saveをクリックして接続を保存し、Edit connectionダイアログを閉じます。これで、Google Cloud Storageオペレータを使用することができます!
Google Cloud Storageからの読み込み
Read Google StorageオペレータはGoogle Cloud Storageアカウントからデータを読み込みます。このオペレータはファイルをダウンロードするのみでファイルを処理できないので、任意のファイル形式をロードするのに使用されます。ファイルを処理するためには、Read CSV、Read Excel、Read XMLなどの追加オペレータを使用する必要があります。
まずは、Google Cloud Storageから簡単なcsvファイルを読み込むことから始めてみましょう。
- Read Google Storageオペレータをプロセスにドラッグします。connection entryパラメータの横にあるボタンをクリックして、保存先のリポジトリのConnectionsフォルダからGoogle Cloud Services接続を選択します。
または、リポジトリからプロセスにGoogle Cloud Services接続をドラッグして、オペレータの出力をRead Google Storageオペレータに接続することもできます。
- ファイル選択ボタンをクリックして、Google Cloud Storageアカウント内のファイルを確認します。ロードするファイルを選択し、開くをクリックします。バケットをリスト表示してファイル選択を使用するには、プロジェクト上で storage.buckets.list権限が必要であることに注意してください。その権限を持っていない場合は、パラメータフィールドに直接読み込みたいパスを入力します。
前述のように、Read Google Storageオペレータは指定したファイルの内容を処理しません。この例では、csvファイル(カンマ区切り値ファイル)を選択しています。このファイルタイプはRead CSVオペレータで処理することができます。
- Read Google Storageオペレータと結果ポートの間にRead CSVオペレータを追加します。csvファイルの形式に応じて、列の区切り文字などのRead CSVオペレータのパラメータを設定することができます。
- をクリックしてプロセスを実行します。結果画面には、選択したcsvファイルの行と列を含むテーブルが表示されます。
これで、さらにオペレータを使用し、特定のイベントの共通性を判断するなど、このドキュメントを操作できるようになりました。結果をGoogle Cloud Storageに書き戻すには、Write Google Storageオペレータを使用できます。このオペレータはRead Google Storageオペレータと同じ接続タイプを使用し、同様のインタフェースを備えています。また、Loop Google Storageオペレータを使用して、Google Cloud Storageディレクトリ内の一連のファイルを読み込むこともできます。これを行うには、connection entryと処理するフォルダ、および入れ子内にオペレータを追加して、ループ処理のステップを設定する必要があります。詳細については、Loop Google Storageオペレータのヘルプをご覧ください。