重要な用語

以下にRapidMiner Studioを使用する際、最初に知っておく必要のある用語を紹介します。用語の説明の後ろには、RapidMinerのデータ型の説明とオペレータのポートの説明があります。

属性

シナリオを記述する情報要素です。属性はデータセットのテーブルの列です。

このガイドに含まれているExample Setは、性別、年齢、支払い方法、最終取引、および解約という属性を持っています。

分類

既にカテゴリの所属が分かっているデータに基づいて、Exampleが属するカテゴリ(またはクラス)を予測するプロセスです。カテゴリはラベルの取りうる値と定義されます。(同様に、回帰は数値結果を予測するプロセスです。) つまり、分類では、学習時に学習したルールを使用して新しいデータのカテゴリを予測するモデルを構築します。

データセットの各Exampleは、解約または非解約のいずれかのカテゴリに分類されます。ラベルデータがないExampleについて、各Exampleがどのカテゴリに分類されるかの予測は、学習時に学習したルールから導き出されます。

データセット

学習データは予測関係の発見とモデルの学習に使用されるデータです。テストデータは(通常、学習データを使用して発見される)予測関係において、モデルが表す正確さと有意性を確かめるために使用されるデータです。新規データはラベルのないデータです。新規データの結果を予測するために、学習データから得られたルールを適用します。

このチュートリアルでは、customer-churn-data(顧客の解約データ)データセットを使用してモデルの学習とテストを行います。RapidMinerにインポートすると、元はExcelファイルであったcustomer-churn-dataがRapidMinerで利用可能なデータセットになります。

Example

属性によって特徴づけられたExampleには、他のExampleと比較可能な具体的な値があります。Exampleはデータセットのテーブルの行です。

Example Setであるcustomer-churn-dataには、993 Example(行とも呼ばれます)が含まれています。それらはRapidMinerが先頭に付与する行番号によって識別されます。

Example Set

属性(列)とExample(行)から作成されたテーブルです。データまたはデータセットとも呼ばれます。

ここで使用されているExample Setは customer-churn-dataであり、これは customer-churn-data.xslxファイルから作成されています。

Label

現在の問題に対して見分けるべき属性です。目標はExample Setの各行について、この属性の(ラベルの)値を知る、または学習すること、もしくは通常の属性からそれを導くためのルールを学習することです。ターゲット属性や目的変数と呼ばれることもありますが、まだ特徴づけされていない新しいExampleを予測するためのものです。データセットごとに1つのラベルのみ持ちます。

Churnはこのチュートリアルのデータセットで関心をもたれる属性です。Churn属性のロールをlabelに設定すると、各Exampleごとに顧客がキャンセルするかどうかを予測することができます。

モデル

データマイニングの方法または予測手法です。モデルは発見されたルールを説明し、かつ/または現在および将来のExampleについて未知の状況を予測します。

このチュートリアルでは、顧客がキャンセルするかどうかを予測するモデルを作成しました。モデルの評価(検証)により、正解率のパーセンテージが返されます。

オペレータ

RapidMinerプロセスの作成に使用される、機能ごとにグループ化されたビルディングブロックです。オペレータには入力ポートと出力ポートがあり、入力に対して実行されるアクションは、最終的に出力ポートから提供されるものにつながります。オペレータのパラメータはこれらのアクションを制御します。RapidMinerには1500以上のオペレータがあります。デザインビューのオペレータパネルにあるオペレータは、参照と検索の両方が可能です。

このチュートリアルでは、Retrieveオペレータ(データセットを「取得」する)を Filter Examplesオペレータに接続します。出力されるラベル付けされたデータセットは、Decision Treeオペレータに接続されます。Decision Treeオペレータでは、RapidMinerが予測を生成するのに使用するルールのセットを定めます。

パネル

各ビューには、ビューに関連したパネルやツールのセットがあります。これらのパネルは必要に応じて、移動やサイズ変更、非表示にすることができます。ビュー > パネルの表示のプルダウンメニューから他のパネルを追加することができます。

パネルの詳細を確認するには、吹き出し文字と一緒に説明文を参照してください。以下は、各画面におけるデフォルトパネルの一覧です。

デザイン：オペレータ、リポジトリ、プロセス、パラメータ、ヘルプ
結果：リポジトリ、結果概要
Hadoop Data(エクステンションがインストールされている場合)：Hadoop Data、Hadoop Metadata、 Hadoop Data Log

パラメータ

設定された値でオペレータの特質や動作を決めます。RapidMinerはデザイン画面のパラメータパネルにパラメータを表示します。通常のパラメータと高度なパラメータがあります。高度なパラメータはイタリック体で表示され、パネルの下部にある高度なパラメータを表示/非表示リンクをクリックすることで表示または非表示にすることができます。

Wisdom of Crowds機能の一部として、RapidMiner Studioは、他のRapidMinerユーザーの知識とベストプラクティスに基づいた、パラメータのレコメンデーションを提供します。レコメンダーは変更すべきパラメータのレコメンデーションを提供し、適切なパラメータ値を提案することで、オペレータの設定を支援します。

このチュートリアルでは、Filter Examplesオペレータのフィルタリングパラメータを使用して、学習データを作成します。

ポート

データが移動するポイントで、オペレータやデザイン画面の側面にラベル付きの半円アイコンで表されます。以下のポートの略語のリストを参照してください。

フィルタリングを行ったExample Setを表示するには、RetrieveオペレータのOutput (out)ポートをFilter ExamplesのExampleSet (exa)ポートに接続します。次に、Filter ExamplesのExampleSet（exa）ポートをプロセス画面の右側にあるResults (res）ポートに接続し、をクリックします。

予測

ターゲット属性の最も確率の高い値で、予測はデータマイニングによって導き出されます。ルールとデータがあれば、結果を予測することができます。

このチュートリアルのプロセスでは、例えば、次のことを予測することができます。顧客が54歳以上の男性で、クレジットカードで支払いをしている場合、この顧客がキャンセルする確率は高くなります。

プロセス

フロー設計で表される相互接続されたオペレータのセットで、各オペレータがデータを操作します。プロセスは、例えば、データセットをロードし、データを変換し、モデルを計算して、モデルを別のデータセットに適用します。

このチュートリアルでは、リポジトリからデータセットを取得し、データをフィルタリングして学習データを作成した後、決定木オペレータを適用して予測のルールを導き出し、ラベル付けされていないデータにモデルを適用し、最後に検証を実行してモデルを評価するプロセスを作成します。

プロセス画面

プロセスを構築するための作業エリアです。これはデザイン画面のキャンバスであり、オペレータをドラッグする、またはプロセスをダブルクリックすると、オペレータがプロセスに表示されます。

プロセスを構築する際には、まず、データセットであるcustomer-churn-dataをプロセスパネルにドラッグします。次に、Filter Examplesオペレータを追加し、それらを接続します。

リポジトリ

データ、RapidMinerプロセス、そして9.7以降はその他すべてのためのストレージ機構です。ベストプラクティスでは、ファイルまたはデータベースから直接読み込むのではなく、データストレージにリポジトリを使用することを推奨しています。Readオペレータを使用する場合、RapidMinerでメタデータを使用できなくなり、使用できる機能が制限されます。

デフォルトでは、RapidMiner StudioはリポジトリのSamplesディレクトリに様々なサンプルデータセットとプロセスが格納されています。このチュートリアルが完了すると、Local Repositoryにはデータ、プロセス、およびConnectionsフォルダが含まれます。RapidMiner AI Hubにアクセスできる場合、リポジトリパネルからRapidMiner AI Hub Repositoryにアクセスでき、9.7以降では、RapidMiner AI Hubに保存されているバージョンのProjectsに接続することができます。

ロール

属性の識別タグまたは機能です。ロールは属性にRapidMiner上での特別な意味や扱いを伝えます。RapidMinerには、いくつか事前に定義されたロールがあり、独自のロールを作成する機能もあります。label ロールは予測の対象を定義する上で最も重要です。ロールが割り当てられていない属性は、通常属性(regular attribute)とよばれます。

labelロールをchurn属性に適用します。データセットに行番号が含まれている場合は、その属性にidロールを割り当てます。他のすべての属性にはロールが割り当てられていないため、通常属性となります。

学習

予測関係を見つけるプロセスです。この学習プロセスの結果がモデルです。

Churn属性にlabelロールを割り当てると、年齢、性別、支払い方法、最終取引を考慮した決定木が作成され、新規データへのルールが作成されます。

ビュー

特定の機能にアクセスする「作業エリア」です。事前に定義された 2 つのビューがあります。エクステンションの中には、独自のビューを追加できるものもあります(例：Radoop Extension)。また、ビューメニューの新規パースペクティブをクリックして、独自のビューを作成することもできます。

各ビューの位置づけを確認するには、吹き出し文字と一緒に説明文を参照してください。

デザイン：プロセスの構築と管理のためのキャンバスとツール
結果：設計したプロセスの結果をさまざまな形式で可視化
Hadoop Data：Radoop関連の作業へのアクセス

RapidMinerのデータ型

以下の用語は、RapidMinerが属性に割り当てるデータ型について説明しています。データ型を定義することで、属性が行える処理の種類を指定します。RapidMinerは数値、テキスト、日付の自然な区分をサポートしています。numericは数値のラベルであり、テキストや文字列の場合はnominal、日付の場合はdate_timeです。

attribute

すべての可能なタイプ(「任意のタイプ」)の親

binominal

2つの値のみ(例：true/falseまたはyes/no)

date

時間のない日付(例：23.12.2014)

date_time

日付と時間の両方(例：23.12.2014 17:59)

file_path

より詳細な区別を可能にするnominalデータ型です(まれに使用されます)。列を「ファイルパスのみを含む」としてマークするために使用できます。

integer

整数(例：23、-5、11,024,768)

nominal

あらゆる種類のテキスト値(polynomialとbinomialを含む)

numeric

あらゆる種類の数値(date、time、 integer、real を含む)

polynominal

多くの異なる文字列の値(例：赤、緑、青、黄など)

real

小数(例：11.23や-0.0001など)

text

(polynomialと区別するために)より詳細な区別を可能にするnominalデータ型

time

日付のない時間(例：17:59)

オペレータポート情報

以下のテーブルに各ポートの略称と簡単な説明を示します。

ポートの略称	意味	概要
ano	Anova	ANOVA有意性テストのためのANOVAマトリクス
ann	Annotation	入力オブジェクトから抽出されたアノテーション
arc	Archive	オペレータの実行中に生成されたアーカイブファイル
ass	Association	頻出アイテムセットで発見された相関ルール
att	Attribute	属性の重み(入力と出力)
ave	Average	パフォーマンスの測定(提供された完全なデータセットで構築されたモデルを使用した、パフォーマンスの推定値)
clu	Cluster model	Example Setをクラスタリングした際に作成されるクラスタモデル
clu	Clustered set	クラスタリングを行うオペレータに与えられたExample Setで、Clusterロールを持つ属性を含みます(各Exampleのクラスタを記述します)
col	Collection	オブジェクトのコレクション
con	Condition	任意のオブジェクトを受け付け、パラメータで指定された条件は、このオブジェクトでテストされます。
cov	Covariance	共分散行列
dic	Dictionary	与えられたExample Setに対し、’from’の値を’to’の値に置き換えるために使用されるExample Set
dis	Distance measure	類似性測定のオブジェクト
doc	Document	文書または文書セット
err	Error	標準エラーの出力
est	Estimated performance	モデルの統計的性能の推定を与えるSVMモデルのパフォーマンスベクトル
exa	Example set	Example set
fil	File	ファイルオブジェクト
fla	Flat	フラットコレクションまたはフラットクラスタリングモデル
for	Formula	式の結果
fre	Frequent	アソシエーションルール学習の頻出アイテムまたはアイテムセット
gro	Grouped	グループ化されたモデル、属性、アイテム
hie	Hierarchical	階層型クラスタリングモデル
inp	Input	入力ソース(さまざまなオブジェクトを取得可能)
ite	Item sets	頻出アイテムセット(データ内でよく一緒に表示されるアイテムのグループ)
joi	Join	左と右のExample Setを結合したもの
lab	Labeled data	入力ポートから与えられたモデルをExample Setに適用し、更新されたExample Setをこのポートから出力します。
lef	Left	Joinの左のExample Setとして使用されるExample Setを入力するポート
lif	Lift chart	与えられたモデルとExample Setのリフトパレート図
mat	Matrix	入力されたExample Setの全属性の相関行列
mer	Merged	マージされたExample set
mod	Model	この出力ポートからのデフォルトモデル
obj	Object	IOオブジェクト
ori	Original	入力されたExample Setは、何も変更されずにこのポートから出力されます。
out	Output	出力ポート
par	Parameter set	オペレータに適用できるパラメータのセット
pat	Patterns	与えられたExample SetにGSPアルゴリズムが適用され，その結果のシーケンシャルパターンセットがこのポートから出力されます
per	Performance	選択された属性のパフォーマンスベクトル
pre	Preprocessing	現在のプロセスにおけるオペレータのパラメータに関する情報を持つ前処理モデル
ran	Random forest	ランダムフォレストのモデル
ref	Reference	与えられた参照データまたは参照セット
req	Request set	与えられたExample set
res	Result set	リクエストセットとリファレンスセットのExample間の距離または類似性
rig	Right	Joinの右のExample Setとして使用されるExample Setを入力するポート
roc	ROC curve	含まれているモデルのROC曲線の計算
rul	Rules	頻出アイテムセットで発見された相関ルール
sec	Second	添付のサンプルプロセスでは、Generate IDオペレータの出力結果から得られたExample Setを入力に取得しています。
seg	Segment	画像のセグメント
sel	Selected	indexパラメータで指定されたオブジェクトがこのポートから返されます。
ses	Session	セッションExample Set
sig	Significance	パフォーマンスベクトルを比較した有意性のテスト結果は、このポートを通じて提供されます
sim	Similarity	与えられたExample Setの各Exampleと、それ以外のExampleとの類似度を計算したものです。
sin	Single	オペレータの内部で処理される、指定されたコレクションの単一オブジェクト
sta	Stacking	Exampleまたはモデルのスタッキング
sto	Stored	このポートを介して入力されたオブジェクトは、変更されることなく出力されます。
sub	Subtrahend	Example Setを入力します(入力するExample SetはID属性が必要です)。
sup	Superset	入力されたExample Setの上位集合(スーパーセット)
thr	Through	オブジェクトは変更されることなく渡されます。
thr	Threshold	Select Recallオペレータのしきい値出力
tra	Training	モデルを訓練する学習データ(Example Set)
uni	Union	入力されたExample Setの和集合(ユニオン)
unl	Unlabeled	ラベルが付いておらず、モデルの学習時に使用されないExample
unm	Unmatched	元のExample Setで指定されたパターンにマッチしなかったExample
unr	Unrelated	元のExample Setで指定されたパターンとは無関係なExample
vis	Visualization	自己組織化マップ(SOM)の可視化
wei	Weights	属性の重み
wor	Word	単語リストを入力または出力します。
xsl	XSLT	XSLT(EXtensible Stylesheet Language)の文書