Cassandraコネクタの使用
このガイドでは、RapidMiner Studio 9.3で導入された新しい接続管理を対象としています。
古いCassandra接続については9.2のドキュメントを参照してください。
Cassandraコネクタを使用すると、RapidMiner Studioから直接NoSQLデータベースのCassandraのクラスタに接続することができます。これはすべてのCRUD操作(Create、Read、Update、Delete)をサポートし、より洗練されたデータベースコマンドを実行します。このドキュメントでは、以下の方法について説明します。
NoSQLコネクタエクステンションのインストール
まず、NoSQLエクステンションをインストールする必要があります。
Install NoSQL Extension in Studio
Cassandraクラスタの接続
Cassandraコネクタを使用する前に、新しいCassandra接続を設定する必要があります。接続の設定には、データベースの接続詳細(ホスト名、ポート、キースペース名)が必要です。Cassandraのインストールで認証が必要な場合は、有効な認証情報も必要です。
- RapidMiner StudioでSplunk接続を保存するリポジトリを右クリックして、 Create Connectionを選択します。
または、Connections >Create Connectionをクリックし、以下のダイアログのドロップダウンからリポジトリを選択することも可能です。
- 新しい接続の名前を入力し、Connection TypeをCassandraに設定します。
- Createをクリックし、Edit connectionダイアログのSetupタブに切り替えます。
- Cassandraクラスタの接続詳細を入力します。
事前に設定されたポートは、Cassandraによって使用されるデフォルトのポートです。Cassandraはデフォルトではユーザー認証を必要としないことに注意してください
必須ではありませんが、Test connectionボタンをクリックして、新しいCassandra接続をテストすることをお勧めします。テストに失敗した場合は、詳細設定が正しいかどうかを確認してください。
- Saveをクリックして接続を保存し、Edit connectionダイアログを閉じます。
これで、新しく作成した接続をすべてのCassandraオペレータで使用することができます!
Cassandraからの読み込み
Read Cassandraオペレータを使用すると、Cassandraテーブルからデータを読み込むことができます。
- RapidMiner Studioで空のプロセスを作成し、Read Cassandraオペレータをプロセスにドラッグし、その出力ポートをプロセスの結果ポートに接続します。connection entryパラメータの横にあるボタンをクリックして、保存先のリポジトリのConnectionsフォルダからCassandra接続を選択します。
または、リポジトリからプロセスにCassandra接続をドラッグして、オペレータの出力をRead Cassandraオペレータに接続することもできます。
- クエリの一貫性レベルを定義します。ノード数が3つ以下のクラスタでは、ONEに設定することをお勧めします。それ以外の場合は、デフォルト値のQUORUMを使用します。
- クエリタイプ(クエリ、クエリファイル、またはテーブル)を定義します。テーブルを選択した場合は、別のパラメータに利用可能なテーブルが表示されます。
- をクリックしてプロセスを実行します。結果画面には、CassandraからロードされたExample Setが表示されます。この例では、Example SetにはRapidMiner StudioのDealsサンプルデータセットが含まれています。
Cassandraへの書き込み
Write Cassandraオペレータを使用すると、Cassandraテーブルにデータを書き込むことができます。Cassandraデータストレージシステムの要件として、各データ行は(1列以上で構成される)ユニークなIDで識別される必要があります。以下の例は、RapidMiner Studioのサンプルデータセットの1つを新しいCassandraテーブルに書き込む方法を示しています。
- RapidMiner Studioで から空のプロセスを開きます。
- IrisサンプルデータセットとWrite Cassandraオペレータをプロセスにドラッグし、以下のスクリーンショットのようにオペレータを接続します。Cassandra接続を選択し、table nameに新しいテーブルの名前を入力します。
既存のテーブルを選択することもできます。
Cassandraは新しいデータでテーブルを更新します(新しいデータのスキーマが選択したCassandraテーブルスキーマと一致する場合)。これは、Cassandraにデータを書き込む際、新しいデータと同じユニークなIDを持つデータが上書きされるため、注意が必要であることを意味します。
- Write Cassandraオペレータを結果ポートに接続し、 をクリックしてプロセスを実行します。