Azure Data Lake Storageコネクタの使用

このガイドは、Gen2 Azure Data Lake Storageアーキテクチャを対象としています。

Azure Data Lake Storageコネクタを使用すると、Altair AI Studioから直接Azure Data Lake Storage Gen2アカウントにアクセスすることができます。読み込みと書き込みの両方の操作がサポートされています。また、Loop Azure Data Lake Storage Gen2オペレータを使用して、Azure Data Lake Storageディレクトリ内の一連のファイルを読み込むこともできます。このドキュメントでは、以下の方法について説明します。

Azure Data Lake Storage Gen2アカウントの接続
Azure Data Lake Storageからの読み込み

Azure Data Lake Storage Gen2アカウントの接続

Azure Data Lake Storageコネクタを使用する前に、リモート接続をサポートするようにAzure環境を設定し、Altair AI Studioで新しいAzure Data Lake Storage Gen2接続を設定する必要があります。

そのためには、次の主なステップを実行する必要があります(以下の詳細を参照ください)。

AzureポータルでWebアプリケーションの登録
リモート接続の情報を取得
新しいAzure Data Lake Storage Gen2接続の設定およびテスト

ステップ1: AzureポータルでWebアプリケーションの登録

Azureへの認証では、Webアプリケーション登録(Active Directory Service Principal)を使用することがデフォルトかつ推奨の方法です。共有キーを使用することもできます。共有キーを使用する場合、このステップは省略できます。

Azure Active Directoryを使用してAzure Data Lake Storage Gen2でのサービス間認証を許可するために、Azure AD Webアプリケーションを作成して設定します。サービス間認証ガイドのステップ1 からステップ2 に進みます。最初のステップでは、Azure Data Lake Storageへのアクセスを提供するWebアプリケーションを登録します。NameとSign-on URLフィールドには任意の値を使用できることに注意してください。2つ目のステップでは、Tenant ID、登録したアプリケーションのアプリケーションID、および Altair AI Studioがこのアプリケーションを使用できるようにAltair AI Studioで提供する必要があるキーを取得する方法を説明します。また、新しく登録したアプリケーションには、そのリソースに対して必要な権限を付与する必要があります。リソースへのアクセスを制御するには、Azure Web Portal、Azure CLI、またはAzure Storage Explorerデスクトップアプリケーションなど、いくつかのツールを使用できます。

Azure Tenantでこれらのステップを実行した後、ターゲットのAzure Data Lake Storage Gen2リソースの一部またはすべてのフォルダにアクセスするように設定されたWebアプリケーションの登録が必要です。オペレータのファイルブラウザ(下記参照)が機能するためには、コンテナとナビゲーションを許可するすべてのディレクトリに読み取りと実行のアクセス権が必要なことに注意してください。さらに、クラウドストレージへの書き込みができるようにするには書き込み権限が必要です。ファイルブラウザなしで作業できる場合は、オペレータが直接使用する対象フォルダ/ファイルへのアクセス許可を制限することができます。

ステップ2: リモート接続の情報を取得

Active Directory Service Principal(推奨)または共有キーを使用してリソースにアクセスすることができます。Altair AI Studioで接続を作成するには、次の情報を取得する必要があります。

Active Directory Service Principalの場合

アカウント名
作成したWebアプリケーションのアプリケーションIDとアプリケーションキー
自社のアカウントを識別するテナントID

共有キーの場合

アカウント名
アカウントのキー

ステップ3: 新しいAzure Data Lake Storage Gen2接続の設定およびテスト

すべての情報が揃ったら、接続を設定するのは簡単です。

Altair AI StudioでAzure Data Lake Storage Gen2接続を保存するリポジトリを右クリックして、Create Connectionを選択します。

または、Connections >Create Connectionをクリックし、以下のダイアログのドロップダウンからリポジトリを選択することも可能です。
新しい接続の名前を入力し、Connection TypeをAzure Data Lake Storage Gen2に設定します。
Createをクリックし、Edit connectionダイアログのSetupタブに切り替えます。
Azure Data Lake Storage Gen2アカウントの接続詳細を入力します。Active Directory Service Principal(推奨)または共有キーのいずれかを選択します。Active Directory Service Principalには、Account name、Client ID(WebアプリケーションID)、Client Key(Webアプリケーションにアクセスするためのパスワード)、Tenant IDを、共有キーには、Account nameとAccount keyを指定します。
必須ではありませんが、Test connectionボタンをクリックして、新しいAzure Data Lake Storage Gen2接続をテストすることを推奨します。テストに失敗した場合は、接続詳細が正しいかどうかを確認してください。
Saveをクリックして接続を保存し、Edit connectionダイアログを閉じます。これで、Azure Data Lake Storageオペレータを使用することができます!

Azure Data Lake Storageからの読み込み

Read Azure Data Lake Storage Gen2オペレータはAzure Data Lake Storage Gen2アカウントからデータを読み込みます。このオペレータはファイルをダウンロードするだけでファイルを処理しないので、任意のファイル形式をロードするために使用できます。ファイルを処理するためには、Read CSV、Read Excel、Read XMLなどの追加オペレータを使用する必要があります。

まずは、Azure Data Lake Storageから簡単なcsvファイルを読み込むことから始めてみましょう。

Read Azure Data Lake Storage Gen2オペレータをプロセスパネルにドラッグします。connection entryパラメータの横にあるボタンをクリックして、保存先のリポジトリのConnectionsフォルダからAzure Data Lake Storage Gen2接続を選択します。

または、リポジトリからプロセスパネルにAzure Data Lake Storage Gen2接続をドラッグして、オペレータの出力をRead Azure Data Lake Storage Gen2オペレータに接続することもできます。
ファイル選択ボタンをクリックして、Azure Data Lake Storage Gen2アカウント内のファイルを確認します。ロードするファイルを選択し、開くをクリックします。ルートフォルダから始まるファイルブラウザを使用するには、ルートディレクトリへのReadおよびExecuteのアクセス権が必要なことに注意してください。その権限を持っていない場合は、パラメータフィールドにパスを入力します。そのパスの親フォルダ(ファイルまたはディレクトリ)へのアクセス権と、コンテナレベルまでのExecuteアクセス権があれば、ファイルブラウザを開くことができます。または、常に手動で入力したパスを使用し、それを使ってオペレータを使用することもできます(その場合、権限は実行時にのみチェックされます)。

前述のように、Read Azure Data LakeStorage Gen2オペレータは指定したファイルの内容を処理しません。この例では、csvファイル(カンマ区切り値ファイル)を選択しています。このファイルタイプはRead CSVオペレータで処理することができます。
その後、Read Azure Data Lake Storage Gen2オペレータと結果ポートの間にRead CSVオペレータを追加します。csvファイルの形式に応じて、列の区切り文字などのRead CSVオペレータのパラメータを設定することができます。
をクリックしてプロセスを実行します。結果画面には、選択したcsvファイルの行と列を含むテーブルが表示されます。

これで、さらにオペレータを使用して、特定のイベントの共通性を判断するなど、このドキュメントを操作できるようになりました。結果をAzure Data Lake Storageに書き戻すには、Write Azure Data Lake Storage Gen2オペレータを使用できます。このオペレータはRead Azure Data Lake Storage Gen2オペレータと同じ接続タイプをを使用し、同様のインタフェースを備えています。また、Read Azure Data Lake Storage Gen2オペレータを使用して、Azure Data Lake Storageディレクトリ内の一連のファイルを読み込むこともできます。これを行うには、connection entryと処理するフォルダ、および入れ子内にオペレータを追加して、ループ処理のステップを設定する必要があります。詳細については、Read Azure Data Lake Storage Gen2オペレータのヘルプをご覧ください。