RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

RapidMinerでSparkを使用する方法

投稿日: 2022年8月3日
OS: CentOS 7
バージョン: RapidMiner 9.9

前提条件

  1. 以下のサービスが起動している。
    • HDFS
    • Hive
    • Hue
    • Spark
    • YARN(MR2 Included)
    • Zookeeper
  2. Radoopエクステンションがインストールされていて、titanicデータがHDFSに格納されている。
    参考:RapidMinerでHDFS/Hiveを使用する方法

Sparkライブラリを使用したデータ分析

  1. 「Radoop Nest」を以下のように配置します。結果が2つあるのでresは2つ用意しています。
  2. 「Radoop Nest」をクリックして、以下のように「Retrieve from Hive」と「Split Validation」を配置します。
  3. 「Split Validation」をダブルクリックで開き、SparkMLの「Decision Tree」、「Apply Model」、「Performance (Classification)」を以下のように配置します。ここでのPerformanceは「accuracy」のみチェックしています。
  4. 実行すると以下の結果が得られます。
API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル