Azure Data Lake Storage接続の使用
このガイドでは、RapidMiner Studio 9.3で導入された新しい接続管理を対象としています。
古いレガシーAzure Data Lake Storage接続については9.2のドキュメントを参照してください。
Azure Data Lake Storageコネクタを使用すると、RapidMiner Studioから直接Azure Data Lake Storage Gen1アカウントにアクセスすることができます。読み込みと書き込みの両方の操作がサポートされています。また、 Loop Azure Data Lake Storageオペレータを使用して、Azure Data Lake Storageディレクトリ内の一連のファイルを読み込むこともできます。このドキュメントでは、以下の方法について説明します。
Azure Data Lake Storage Gen1アカウントの接続
Azure Data Lake Storageコネクタを使用する前に、リモート接続をサポートするようにAzure環境を設定し、RapidMinerで新しいAzure Data Lake Storage Gen1接続を設定する必要があります。
そのためには、次の主なステップを実行する必要があります(以下の詳細を参照ください)。
- AzureポータルでWebアプリケーションの登録
- リモート接続の情報を取得
- RapidMinerで新しいAzure Data Lake Storage Gen1接続を設定およびテスト
ステップ1: AzureポータルでWebアプリケーションの登録
Azure Active Directoryを使用してAzure Data Lake Storage Gen1でのサービス間認証を許可するために、Azure AD Webアプリケーションを作成して設定します。サービス間認証ガイドのステップ1 からステップ3 に進みます。最初のステップでは、RapidMinerからAzure Data Lake Storageへのアクセスを提供するWebアプリケーションを登録します。NameとSign-on URLフィールドには任意の値を使用できることに注意してください。2つ目のステップでは、Tenant ID、登録したアプリケーションのアプリケーションID、および RapidMinerがこのアプリケーションを使用できるようにRapidMinerで提供する必要があるキーを取得する方法を説明します。3つ目のステップでは、この Active Directory アプリケーションが Data Lake Storageにアクセスできるように設定します。
Azure Tenantでこれらのステップを実行した後、ターゲットのAzure Data Lake Storage Gen1リソースの一部またはすべてのフォルダにアクセスするように設定されたWebアプリケーションの登録が必要です。RapidMinerのオペレータのファイルブラウザ(下記参照)が機能するためには、ルートディレクトリとナビゲーションを許可するすべてのディレクトリにReadおよびExecuteのアクセス権が必要なことに注意してください。さらに、RapidMinerからクラウドストレージへの書き込みができるようにするにはWrite権限が必要です。ファイルブラウザなしで作業できる場合は、オペレータが直接使用する対象フォルダ/ファイルへのアクセス許可を制限することができます。
ステップ2: リモート接続の情報を取得
RapidMinerで接続を作成するには、次の情報を取得する必要があります。前のステップとリンク先のガイドでそれらの取得方法を説明しましたが、ここでもそれらの詳細への直接リンクを記載します。
- 自社のアカウントを特定するTenant IDを取得します(参照:Get Tenant ID)
- アカウントの完全修飾ドメイン名を取得します。例: Azure Data Lake Storage Gen1の名前がcontosoの場合、FQDNはデフォルトで contoso.azuredatalakestore.netとなります。
- 作成したWebアプリケーションのアプリケーションIDとアプリケーションキーを取得します(参照:Get application ID and authentication key)
ステップ3: RapidMinerで新しいAzure Data Lake Storage Gen1接続を設定およびテスト
すべての情報が揃ったら、RapidMinerで接続を設定するのは簡単です。
- RapidMiner StudioでAzure Data Lake Storage Gen1接続を保存するリポジトリを右クリックして、 Create Connectionを選択します。
または、Connections > Create Connectionをクリックし、以下のダイアログのドロップダウンからリポジトリを選択することも可能です。
- 新しい接続の名前を入力し、Connection Typeを Azure Data Lake Storage Gen1に設定します。
- Createをクリックし、Edit connectionダイアログのSetupタブに切り替えます。
- Azure Data Lake Storage Gen1アカウントの接続詳細を入力します。Tenant ID、Account FQDN(完全修飾ドメイン名)、Client ID(WebアプリケーションID)、Client Key(Webアプリケーションにアクセスするためのパスワード)を指定します。
- 必須ではありませんが、 Test connectionボタンをクリックして、新しいAzure Data Lake Storage Gen1接続をテストすることを推奨します。テストに失敗した場合は、接続詳細が正しいかどうかを確認してください。
- Saveをクリックして接続を保存し、Edit connectionダイアログを閉じます。これで、Azure Data Lake Storageオペレータを使用することができます!
Azure Data Lake Storageからの読み込み
Read Azure Data Lake StorageオペレータはAzure Data Lake Storage Gen1アカウントからデータを読み込みます。このオペレータはファイルをダウンロードするのみでファイルを処理できないので、任意のファイル形式をロードするのに使用されます。ファイルを処理するためには、Read CSV、Read Excel、Read XMLなどの追加オペレータを使用する必要があります。
まずは、Azure Data Lake Storageから簡単なcsvファイルを読み込むことから始めてみましょう。
- Read Azure Data Lake Storageオペレータをプロセスにドラッグします。connection entryパラメータの横にある ボタンをクリックして、保存先のリポジトリのConnectionsフォルダからAzure Data Lake Storage Gen1接続を選択します。
または、リポジトリからプロセスにAzure Data Lake Storage Gen1接続をドラッグして、オペレータの出力をRead Azure Data Lake Storageオペレータに接続することもできます。
- ファイル選択ボタンをクリックして、Azure Data Lake Storage Gen1アカウント内のファイルを確認します。ロードするファイルを選択し、 開くをクリックします。ルートフォルダから始まるファイルブラウザを使用するには、ルートディレクトリへのReadおよびExecuteのアクセス権が必要なことに注意してください。その権限を持っていない場合は、パラメータフィールドにパスを入力します。そのパスの親フォルダ(ファイルまたはディレクトリ)へのアクセス権と、ルートフォルダまでのExecuteアクセス権があれば、ファイルブラウザを開くことができます。または、常に手動で入力したパスを使用し、それを使ってオペレータを使用することもできます(その場合、権限は実行時にのみチェックされます)。
前述のように、 Read Azure Data Lake Storageオペレータは指定したファイルの内容を処理しません。この例では、csvファイル(カンマ区切り値ファイル)を選択しています。このファイルタイプはRead CSVオペレータで処理することができます。
- その後、 Read Azure Data Lake Storageオペレータと結果ポートの間にRead CSVオペレータを追加します。csvファイルの形式に応じて、列の区切り文字などのRead CSVオペレータのパラメータを設定することができます。
- をクリックしてプロセスを実行します。結果画面には、選択したcsvファイルの行と列を含むテーブルが表示されます。
これで、さらにオペレータを使用し、特定のイベントの共通性を判断するなど、このドキュメントを操作できるようになりました。結果をAzure Data Lake Storageに書き戻すには、 Write Azure Data Lake Storageオペレータを使用できます。このオペレータは Read Azure Data Lake Storageオペレータと同じ接続タイプを使用し、同様のインタフェースを備えています。また、 Loop Azure Data Lake Storageオペレータを使用して、Azure Data Lake Storageディレクトリ内の一連のファイルを読み込むこともできます。これを行うには、connection entryと処理するフォルダ、および入れ子内にオペレータを追加して、ループ処理のステップを設定する必要があります。詳細については、 Loop Azure Data Lake Storageオペレータのヘルプをご覧ください。