RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

重要な用語

以下にRapidMiner Studioを使用する際最初に知っておく必要のある用語を紹介します。用語の説明の後ろには、RapidMinerのデータ型の説明 と オペレータのポートの説明があります。

属性

シナリオを記述する情報要素です。属性はデータセットのテーブルの列です。

Attribute

このガイドに含まれているExample Setは、性別、年齢、支払い方法、最終取引、および解約という属性を持っています。

分類

既にカテゴリの所属が分かっているデータに基づいて、Exampleが属するカテゴリ(またはクラス)を予測するプロセスです。カテゴリはラベルの取りうる値と定義されます。(同様に、回帰は数値結果を予測するプロセスです。) つまり、分類では、学習時に学習したルールを使用して新しいデータのカテゴリを予測するモデルを構築します。

分類

データセットの各Exampleは、解約または非解約のいずれかのカテゴリに分類されます。ラベルデータがないExampleについて、各Exampleがどのカテゴリに分類されるかの予測は、学習時に学習したルールから導き出されます。

データセット

学習データは予測関係の発見とモデルの学習に使用されるデータです。テストデータは(通常、学習データを使用して発見される)予測関係において、モデルが表す正確さと有意性を確かめるために使用されるデータです。新規データはラベルのないデータです。新規データの結果を予測するために、学習データから得られたルールを適用します。

データセット

このチュートリアルでは、customer-churn-data(顧客の解約データ)データセットを使用してモデルの学習とテストを行います。RapidMinerにインポートすると、元はExcelファイルであったcustomer-churn-dataがRapidMinerで利用可能なデータセットになります。

Example

属性によって特徴づけられたExampleには、他のExampleと比較可能な具体的な値があります。Exampleはデータセットのテーブルの行です。

Example

Example Setであるcustomer-churn-dataには、993 Example(行とも呼ばれます)が含まれています。それらはRapidMinerが先頭に付与する行番号によって識別されます。

Example Set

属性(列)とExample(行)から作成されたテーブルです。データまたはデータセットとも呼ばれます。

Example set

ここで使用されているExample Setは customer-churn-dataであり、これは customer-churn-data.xslxファイルから作成されています。

Label

現在の問題に対して見分けるべき属性です。目標はExample Setの各行について、この属性の(ラベルの)値を知る、または学習すること、もしくは通常の属性からそれを導くためのルールを学習することです。ターゲット属性や目的変数と呼ばれることもありますが、まだ特徴づけされていない新しいExampleを予測するためのものです。データセットごとに1つのラベルのみ持ちます。

Label

Churnはこのチュートリアルのデータセットで関心をもたれる属性です。Churn属性のロールをlabel に設定すると、各Exampleごとに顧客がキャンセルするかどうかを予測することができます。

モデル

データマイニングの方法または予測手法です。モデルは発見されたルールを説明し、かつ/または現在および将来のExampleについて未知の状況を予測します。

Model

このチュートリアルでは、顧客がキャンセルするかどうかを予測するモデルを作成しました。モデルの評価(検証)により、正解率のパーセンテージが返されます。

オペレータ

RapidMinerプロセスの作成に使用される、機能ごとにグループ化されたビルディングブロックです。オペレータには入力ポートと出力ポートがあり、入力に対して実行されるアクションは、最終的に出力ポートから提供されるものにつながります。オペレータのパラメータ はこれらのアクションを制御します。RapidMinerには1500以上のオペレータがあります。デザインビューのオペレータパネルにあるオペレータは、参照と検索の両方が可能です。

オペレータ

このチュートリアルでは、Retrieve オペレータ(データセットを「取得」する)を Filter Examplesオペレータに接続します。出力されるラベル付けされたデータセットは、Decision Treeオペレータに接続されます。Decision Treeオペレータでは、RapidMinerが予測を生成するのに使用するルールのセットを定めます。

パネル

各ビューには、ビューに関連したパネルやツールのセットがあります。これらのパネルは必要に応じて、移動やサイズ変更、非表示にすることができます。ビュー > パネルの表示 のプルダウンメニューから他のパネルを追加することができます。

パネル

パネルの詳細を確認するには、吹き出し文字と一緒に説明文を参照してください。以下は、各画面におけるデフォルトパネルの一覧です。

  • デザイン:オペレータ、リポジトリ、プロセス、パラメータ、ヘルプ
  • 結果 リポジトリ、結果概要
  • Hadoop Data(エクステンションがインストールされている場合):Hadoop Data、Hadoop Metadata、 Hadoop Data Log

パラメータ

設定された値でオペレータの特質や動作を決めます。RapidMinerはデザイン画面のパラメータパネルにパラメータを表示します。通常のパラメータと高度なパラメータがあります。高度なパラメータはイタリック体で表示され、パネルの下部にある高度なパラメータを表示/非表示リンクをクリックすることで表示または非表示にすることができます。

Wisdom of Crowds機能の一部として、RapidMiner Studioは、他のRapidMinerユーザーの知識とベストプラクティスに基づいた、パラメータのレコメンデーションを提供します。レコメンダーは変更すべきパラメータのレコメンデーションを提供し、適切なパラメータ値を提案することで、オペレータの設定を支援します。

パラメータ

このチュートリアルでは、Filter Examplesオペレータのフィルタリングパラメータを使用して、学習データを作成します。

ポート

データが移動するポイントで、オペレータやデザイン画面の側面にラベル付きの半円アイコンで表されます。以下のポートの略語のリストを参照してください。

ポート

フィルタリングを行ったExample Setを表示するには、RetrieveオペレータのOutput (out)ポートをFilter ExamplesのExampleSet (exa)ポートに接続します。次に、Filter ExamplesのExampleSet(exa)ポートをプロセス画面の右側にあるResults (res)ポートに接続し、プロセスを実行をクリックします。

予測

ターゲット属性の最も確率の高い値で、予測はデータマイニングによって導き出されます。ルールとデータがあれば、結果を予測することができます。

予測

このチュートリアルのプロセスでは、例えば、次のことを予測することができます。顧客が54歳以上の男性で、クレジットカードで支払いをしている場合、この顧客がキャンセルする確率は高くなります。

プロセス

フロー設計で表される相互接続されたオペレータのセットで、各オペレータがデータを操作します。プロセスは、例えば、データセットをロードし、データを変換し、モデルを計算して、モデルを別のデータセットに適用します。

プロセス

このチュートリアルでは、リポジトリからデータセットを取得し、データをフィルタリングして学習データを作成した後、決定木オペレータを適用して予測のルールを導き出し、ラベル付けされていないデータにモデルを適用し、最後に検証を実行してモデルを評価するプロセスを作成します。

プロセス画面

プロセスを構築するための作業エリアです。これはデザイン画面のキャンバスであり、オペレータをドラッグしたり、またプロセスをダブルクリックすると、そのプロセスのオペレータが表示されます。

プロセス画面

プロセスを構築する際には、まず、データセットであるcustomer-churn-dataプロセスパネルにドラッグします。次に、Filter Examplesオペレータを追加し、それらを接続します。

リポジトリ

データ、RapidMinerプロセス、そして9.7以降はその他すべてのためのストレージ機構です。ベストプラクティスでは、ファイルまたはデータベースから直接読み込むのではなく、データストレージにリポジトリを使用することを推奨しています。Read オペレータを使用する場合、RapidMinerでメタデータを使用できなくなり、使用できる機能が制限されます。

リポジトリ

デフォルトでは、RapidMiner StudioはリポジトリのSamplesディレクトリに様々なサンプルデータセットとプロセスが格納されています。このチュートリアルが完了すると、Local Repositoryにはデータ、プロセス、およびConnectionsフォルダが含まれます。RapidMiner AI Hubにアクセスできる場合、リポジトリパネルからRapidMiner AI Hub Repositoryにアクセスでき、9.7以降では、RapidMiner AI Hubに保存されているバージョンのProjects に接続することができます。

ロール

属性の識別タグまたは機能です。ロールは属性にRapidMiner上での特別な意味や扱いを伝えます。RapidMinerには、いくつか事前に定義されたロールがあり、独自のロールを作成する機能もあります。label ロールは予測の対象を定義する上で最も重要です。ロールが割り当てられていない属性は、通常属性(regular attribute)とよばれます。

ロール

label ロールを churn 属性に適用します。データセットに行番号が含まれている場合は、その属性に id ロールを割り当てます。他のすべての属性にはロールが割り当てられていないため、通常属性となります。

学習

予測関係を見つけるプロセスです。この学習プロセスの結果がモデルです。

Training

Churn属性にlabelロールを割り当てると、年齢、性別、支払い方法、最終取引を考慮した決定木が作成され、新規データへのルールが作成されます。

ビュー

特定の機能にアクセスする「作業エリア」です。事前に定義された 2 つのビューがあります。エクステンションの中には、独自のビューを追加できるものもあります(例:Radoop Extension)。また、ビューメニューの新規パースペクティブをクリックして、独自のビューを作成することもできます。

画面

各ビューの位置づけを確認するには、吹き出し文字と一緒に説明文を参照してください。

  • デザイン:プロセスの構築と管理のためのキャンバスとツール
  • 結果 設計したプロセスの結果をさまざまな形式で可視化
  • Hadoop Data: Radoop関連の作業へのアクセス

RapidMinerのデータ型

以下の用語は、RapidMinerが属性に割り当てるデータ型について説明しています。データ型を定義することで、属性が行える処理の種類を指定します。RapidMinerは数値、テキスト、日付の自然な区分をサポートしています。numericは数値のラベルであり、テキストや文字列の場合はnominal、日付の場合はdate_timeです。

attribute

すべての可能なタイプ(「任意のタイプ」)の親

binominal

2つの値のみ(例:true/falseまたはyes/no)

date

時間のない日付(例:23.12.2014)

date_time

日付と時間の両方(例:23.12.2014 17:59)

file_path

より詳細な区別を可能にするnominalデータ型です(まれに使用されます)。列を「ファイルパスのみを含む」としてマークするために使用できます。

integer

整数(例:23、-5、11,024,768)

nominal

あらゆる種類のテキスト値(polynomialとbinomialを含む)

numeric

あらゆる種類の数値(date、time、 integer、real を含む)

polynominal

多くの異なる文字列の値(例:赤、緑、青、黄など)

real

小数(例:11.23や-0.0001など)

text

(polynomialと区別するために)より詳細な区別を可能にするnominalデータ型

time

日付のない時間(例:17:59)

オペレータポート情報

以下のテーブルに各ポートの略称と簡単な説明を示します。

ポートの略称 意味 概要
ano Anova ANOVA有意性テストのためのANOVAマトリクス
ann Annotation 入力オブジェクトから抽出されたアノテーション
arc Archive オペレータの実行中に生成されたアーカイブファイル
ass Association 頻出アイテム集合で発見された相関ルール
att Attribute 属性の重み(入力と出力)
ave Average パフォーマンスの測定(提供された完全なデータセットで構築されたモデルを使用した、パフォーマンスの推定値)
clu Cluster model Example Setをクラスタリングした際に作成されるクラスタモデル
clu Clustered set クラスタリングを行うオペレータに与えられたExample Setで、Clusterロールを持つ属性を含みます(各Exampleのクラスタを記述します)
col Collection オブジェクトのコレクション
con Condition 任意のオブジェクトを受け付け、パラメータで指定された条件は、このオブジェクトでテストされます。
cov Covariance 共分散行列
dic Dictionary 与えられたExample Setに対し、’from’の値を’to’の値に置き換えるために使用されるExample Set
dis Distance measure 類似性測定のオブジェクト
doc Document 文書または文書セット
err Error 標準エラーの出力
est Estimated performance モデルの統計的性能の推定を与えるSVMモデルのパフォーマンスベクトル
exa Example set Example set
fil File ファイルオブジェクト
fla Flat フラットコレクションまたはフラットクラスタリングモデル
for Formula 式の結果
fre Frequent アソシエーションルール学習の頻出アイテムまたはアイテムセット
gro Grouped グループ化されたモデル、属性、アイテム
hie Hierarchical 階層型クラスタリングモデル
inp Input 入力ソース(さまざまなオブジェクトを取得可能)
ite Item sets 頻出アイテムセット(データ内でよく一緒に表示されるアイテムのグループ)
joi Join 左と右のExample Setを結合したもの
lab Labeled data 入力ポートから与えられたモデルをExample Setに適用し、更新されたExample Setをこのポートから出力します。
lef Left Joinの左のExample Setとして使用されるExample Setを入力するポート
lif Lift chart 与えられたモデルとExample Setのリフトパレート図
mat Matrix 入力されたExample Setの全属性の相関行列
mer Merged マージされたExample set
mod Model この出力ポートからのデフォルトモデル
obj Object IOオブジェクト
ori Original 入力されたExample Setは、何も変更されずにこのポートから出力されます。
out Output 出力ポート
par Parameter set オペレータに適用できるパラメータのセット
pat Patterns 与えられたExample SetにGSPアルゴリズムが適用され,その結果のシーケンシャルパターンセットがこのポートから出力されます
per Performance 選択された属性のパフォーマンスベクトル
pre Preprocessing 現在のプロセスにおけるオペレータのパラメータに関する情報を持つ前処理モデル
ran Random forest ランダムフォレストのモデル
ref Reference 与えられた参照データまたは参照セット
req Request set 与えられたExample set
res Result set リクエストセットとリファレンスセットのExample間の距離または類似性
rig Right Joinの右のExample Setとして使用されるExample Setを入力するポート
roc ROC curve 含まれているモデルのROC曲線の計算
rul Rules 頻出アイテム集合で発見された相関ルール
sec Second 添付のサンプルプロセスでは、Generate IDオペレータの出力結果から得られたExample Setを入力に取得しています。
seg Segment 画像のセグメント
sel Selected indexパラメータで指定されたオブジェクトがこのポートから返されます。
ses Session セッションExample Set
sig Significance パフォーマンスベクトルを比較した有意性のテスト結果は、このポートを通じて提供されます
sim Similarity 与えられたExample Setの各Exampleと、それ以外のExampleとの類似度を計算したものです。
sin Single オペレータの内部で処理される、指定されたコレクションの単一オブジェクト
sta Stacking Exampleまたはモデルのスタッキング
sto Stored このポートを介して入力されたオブジェクトは、変更されることなく出力されます。
sub Subtrahend Example Setを入力します。入力するExample SetはID属性が必要です)
sup Superset 入力されたExample Setの上位集合(スーパーセット)
thr Through オブジェクトは変更されることなく渡されます。
thr Threshold Select Recall オペレータのしきい値出力
tra Training モデルを訓練する学習データ(Example Set)
uni Union 入力されたExample Setの和集合(ユニオン)
unl Unlabeled ラベルが付いておらず、モデルの学習時に使用されないExample
unm Unmatched 元のExample Setで指定されたパターンにマッチしなかったExample
unr Unrelated 元のExample Setで指定されたパターンとは無関係なExample
vis Visualization 自己組織化マップ(SOM)の可視化
wei Weights 属性の重み
wor Word 単語リストを入力または出力します。
xsl XSLT XSLT(EXtensible Stylesheet Language)の文書
API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル