RapidMiner（ラピッドマイナー）はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

RapidMinerでHDFS/Hiveを使用する方法

投稿日: 2022年8月3日
OS: CentOS 7
バージョン: RapidMiner 9.9

前提条件

以下のサービスが起動している。
- HDFS
- Hive
- Hue
- Zookeeper
Radoopエクステンションがインストールされており、接続テストが成功し、HDFSのデータ操作が可能。
下記もご参考ください。
- 【ナレッジベース】RapidMiner Radoop Installation
- 【Radoop基本操作の動画】Radoop 接続編

Hive経由でHDFSにデータを出力

まず分析に使用するデータをHDFSにアップロードします。

Radoop Nestを以下のように配置します。
Radoop Nestをダブルクリックで開き、タイタニックのデータとStoreオペレータを以下のように配置します。ここでは「tablename」を「titanic」としています。
実行すると以下の結果が得られます。
「Radoop Data」をクリックするとHDFSにアップロードされたデータが確認できます。
念の為、Hueでも確認してみると想定通りデータがアップロードされています。

Hive経由でHDFSからデータを入力

次に先ほどのHDFSの出力したデータを入力してみます。

taitanicのテーブルを右クリックし、「Create Process: Retrieve」をクリックします。
HDFSからデータ取得に必要なオペレーターが自動的にプロセスに配置されます。
Radoop Nestの中にはRetrieve from Hiveオペレータが配置されています。
実行すると以下のような結果が出力されます。

参考動画：Radoop データ操作編(Hive)