Amazon S3コネクタの使用
このガイドでは、RapidMiner Studio 9.3で導入された新しい接続管理を対象としています。
古いレガシーAmazon S3接続については9.2のドキュメントを参照してください。
Amazon S3コネクタを使用すると、RapidMiner Studioから直接Amazon S3のストレージにアクセスすることができます。読み込みと書き込みの両方の操作がサポートされています。このドキュメントでは、以下の方法について説明します。
Amazon S3アカウントの接続
新しいAmazon S3接続を設定するには、Amazon S3アカウントの接続詳細(最低でもアクセスキーとシークレットキー)が必要です。
- RapidMiner StudioでAmazon S3接続を保存するリポジトリを右クリックして、Create Connectionを選択します。
または、Connections > Create Connectionをクリックし、以下のダイアログのドロップダウンからリポジトリを選択することも可能です。
- 新しい接続の名前を入力し、Connection Typeを Amazon S3に設定します。
- Createをクリックし、Edit connectionダイアログのSetupタブに切り替えます。
- Amazon S3アカウントの接続詳細を入力します。
Amazon S3は、URLに使用される”/”やMicrosoft Windowsで使用される”\”など、フォルダの「区切り文字」(入れ子になったフォルダを区切るための記号)をサポートしていることに注意してください。設定で誤った区切り文字を指定した場合、フォルダ構造がRapidMiner Studioで正しく表示されない可能性があります。この区切り文字は後から接続設定でいつでも変更可能なので、ご安心ください。
必須ではありませんが、 Test connectionボタンをクリックして、新しいAmazon S3接続をテストすることを推奨します。テストに失敗した場合は、接続詳細が正しいかどうかを確認してください。
- Saveをクリックして接続を保存し、Edit connectionダイアログを閉じます。これで、Amazon S3オペレータを使用することができます!
Amazon S3からの読み込み
Read Amazon S3オペレータはAmazon S3アカウントからデータを読み込みます。このオペレータはファイルをダウンロードするのみでファイルを処理できないので、任意のファイル形式をロードするのに使用されます。ファイルを処理するには、Read Document、Read Excel、Read XMLなどの追加オペレータを使用する必要があります。
まずは、Amazon S3から簡単なログファイルを読み込むことから始めてみましょう。
- Read Amazon S3オペレータをプロセスにドラッグします。connection entryパラメータの横にある ボタンをクリックして、保存先のリポジトリのConnectionsフォルダからAmazon S3接続を選択します。
または、リポジトリからプロセスにAmazon S3接続をドラッグして、オペレータの出力をRead Amazon S3オペレータに接続することもできます。
- ファイル選択ボタンをクリックして、Amazon S3アカウント内のファイルを確認します。ロードするファイルを選択し、 開くをクリックします。
前述のように、Read Amazon S3オペレータは指定したファイルの内容を処理しません。この例では、ログファイル(プレーンテキストファイル)を選択しています。このファイルタイプはRapidMiner StudioのText Processingエクステンションの一部であるRead Documentオペレータで処理することができます。
- RapidMiner StudioのText Processingエクステンションをまだインストールしていない場合は、マーケットプレイスでインストールしてください。その後、Read Amazon S3オペレータと結果ポートの間にRead Documentオペレータを追加します。
- をクリックしてプロセスを実行します。結果画面には、ログファイルの内容を含む1つのドキュメントが表示されます。
これで、さらにテキスト処理オペレータを使用して、特定のイベントの共通性を判断するなど、このドキュメントを操作できるようになりました。結果をAmazon S3に書き戻すのには、Write Amazon S3オペレータを使用できます。このオペレータはRead Amazon S3オペレータと同じ 接続タイプを使用し、同様のインタフェースを備えています。また、Loop Amazon S3オペレータを使用して、Amazon S3ディレクトリ内の一連のファイルを読み込むこともできます。これを行うには、connection entryと処理するフォルダ、および入れ子内にオペレータを追加して、ループ処理のステップを設定する必要があります。詳細については、Loop Amazon S3オペレータのヘルプをご覧ください。