RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

RapidMinerでHDFS/Hiveを使用する方法

投稿日: 2022年8月3日
OS: CentOS 7
バージョン: RapidMiner 9.9

前提条件

  • 以下のサービスが起動している。
    • HDFS
    • Hive
    • Hue
    • Zookeeper
  • Radoopエクステンションがインストールされており、接続テストが成功し、HDFSのデータ操作が可能。
    下記もご参考ください。

Hive経由でHDFSにデータを出力

まず分析に使用するデータをHDFSにアップロードします。

  1. Radoop Nestを以下のように配置します。
  2. Radoop Nestをダブルクリックで開き、タイタニックのデータとStoreオペレータを以下のように配置します。ここでは「tablename」を「titanic」としています。
  3. 実行すると以下の結果が得られます。
  4. 「Radoop Data」をクリックするとHDFSにアップロードされたデータが確認できます。
  5. 念の為、Hueでも確認してみると想定通りデータがアップロードされています。

Hive経由でHDFSからデータを入力

次に先ほどのHDFSの出力したデータを入力してみます。

  1. taitanicのテーブルを右クリックし、「Create Process: Retrieve」をクリックします。
  2. HDFSからデータ取得に必要なオペレーターが自動的にプロセスに配置されます。
  3. Radoop Nestの中にはRetrieve from Hiveオペレータが配置されています。
  4. 実行すると以下のような結果が出力されます。

参考動画:Radoop データ操作編(Hive) 

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル