重要な用語
以下にRapidMiner Studioを使用する際、最初に知っておく必要のある用語を紹介します。用語の説明の後ろには、RapidMinerのデータ型の説明 と オペレータのポートの説明があります。
属性
シナリオを記述する情報要素です。属性はデータセットのテーブルの列です。
このガイドに含まれているExample Setは、性別、年齢、支払い方法、最終取引、および解約という属性を持っています。
分類
既にカテゴリの所属が分かっているデータに基づいて、Exampleが属するカテゴリ(またはクラス)を予測するプロセスです。カテゴリはラベルの取りうる値と定義されます。(同様に、回帰は数値結果を予測するプロセスです。) つまり、分類では、学習時に学習したルールを使用して新しいデータのカテゴリを予測するモデルを構築します。
データセットの各Exampleは、解約または非解約のいずれかのカテゴリに分類されます。ラベルデータがないExampleについて、各Exampleがどのカテゴリに分類されるかの予測は、学習時に学習したルールから導き出されます。
データセット
学習データは予測関係の発見とモデルの学習に使用されるデータです。テストデータは(通常、学習データを使用して発見される)予測関係において、モデルが表す正確さと有意性を確かめるために使用されるデータです。新規データはラベルのないデータです。新規データの結果を予測するために、学習データから得られたルールを適用します。
このチュートリアルでは、customer-churn-data(顧客の解約データ)データセットを使用してモデルの学習とテストを行います。RapidMinerにインポートすると、元はExcelファイルであったcustomer-churn-dataがRapidMinerで利用可能なデータセットになります。
Example
属性によって特徴づけられたExampleには、他のExampleと比較可能な具体的な値があります。Exampleはデータセットのテーブルの行です。
Example Setであるcustomer-churn-dataには、993 Example(行とも呼ばれます)が含まれています。それらはRapidMinerが先頭に付与する行番号によって識別されます。
Example Set
属性(列)とExample(行)から作成されたテーブルです。データまたはデータセットとも呼ばれます。
ここで使用されているExample Setは customer-churn-dataであり、これは customer-churn-data.xslxファイルから作成されています。
Label
現在の問題に対して見分けるべき属性です。目標はExample Setの各行について、この属性の(ラベルの)値を知る、または学習すること、もしくは通常の属性からそれを導くためのルールを学習することです。ターゲット属性や目的変数と呼ばれることもありますが、まだ特徴づけされていない新しいExampleを予測するためのものです。データセットごとに1つのラベルのみ持ちます。
Churnはこのチュートリアルのデータセットで関心をもたれる属性です。Churn属性のロールをlabelに設定すると、各Exampleごとに顧客がキャンセルするかどうかを予測することができます。
モデル
データマイニングの方法または予測手法です。モデルは発見されたルールを説明し、かつ/または現在および将来のExampleについて未知の状況を予測します。
このチュートリアルでは、顧客がキャンセルするかどうかを予測するモデルを作成しました。モデルの評価(検証)により、正解率のパーセンテージが返されます。
オペレータ
RapidMinerプロセスの作成に使用される、機能ごとにグループ化されたビルディングブロックです。オペレータには入力ポートと出力ポートがあり、入力に対して実行されるアクションは、最終的に出力ポートから提供されるものにつながります。オペレータのパラメータ はこれらのアクションを制御します。RapidMinerには1500以上のオペレータがあります。デザインビューのオペレータパネルにあるオペレータは、参照と検索の両方が可能です。
このチュートリアルでは、Retrieveオペレータ(データセットを「取得」する)を Filter Examplesオペレータに接続します。出力されるラベル付けされたデータセットは、Decision Treeオペレータに接続されます。Decision Treeオペレータでは、RapidMinerが予測を生成するのに使用するルールのセットを定めます。
パネル
各ビューには、ビューに関連したパネルやツールのセットがあります。これらのパネルは必要に応じて、移動やサイズ変更、非表示にすることができます。ビュー > パネルの表示のプルダウンメニューから他のパネルを追加することができます。
パネルの詳細を確認するには、吹き出し文字と一緒に説明文を参照してください。以下は、各画面におけるデフォルトパネルの一覧です。
- デザイン:オペレータ、リポジトリ、プロセス、パラメータ、ヘルプ
- 結果:リポジトリ、結果概要
- Hadoop Data(エクステンションがインストールされている場合):Hadoop Data、Hadoop Metadata、 Hadoop Data Log
パラメータ
設定された値でオペレータの特質や動作を決めます。RapidMinerはデザイン画面のパラメータパネルにパラメータを表示します。通常のパラメータと高度なパラメータがあります。高度なパラメータはイタリック体で表示され、パネルの下部にある高度なパラメータを表示/非表示リンクをクリックすることで表示または非表示にすることができます。
Wisdom of Crowds機能の一部として、RapidMiner Studioは、他のRapidMinerユーザーの知識とベストプラクティスに基づいた、パラメータのレコメンデーションを提供します。レコメンダーは変更すべきパラメータのレコメンデーションを提供し、適切なパラメータ値を提案することで、オペレータの設定を支援します。
このチュートリアルでは、Filter Examplesオペレータのフィルタリングパラメータを使用して、学習データを作成します。
ポート
データが移動するポイントで、オペレータやデザイン画面の側面にラベル付きの半円アイコンで表されます。以下のポートの略語のリストを参照してください。
フィルタリングを行ったExample Setを表示するには、RetrieveオペレータのOutput (out)ポートをFilter ExamplesのExampleSet (exa)ポートに接続します。次に、Filter ExamplesのExampleSet(exa)ポートをプロセス画面の右側にあるResults (res)ポートに接続し、をクリックします。
予測
ターゲット属性の最も確率の高い値で、予測はデータマイニングによって導き出されます。ルールとデータがあれば、結果を予測することができます。
このチュートリアルのプロセスでは、例えば、次のことを予測することができます。顧客が54歳以上の男性で、クレジットカードで支払いをしている場合、この顧客がキャンセルする確率は高くなります。
プロセス
フロー設計で表される相互接続されたオペレータのセットで、各オペレータがデータを操作します。プロセスは、例えば、データセットをロードし、データを変換し、モデルを計算して、モデルを別のデータセットに適用します。
このチュートリアルでは、リポジトリからデータセットを取得し、データをフィルタリングして学習データを作成した後、決定木オペレータを適用して予測のルールを導き出し、ラベル付けされていないデータにモデルを適用し、最後に検証を実行してモデルを評価するプロセスを作成します。
プロセス画面
プロセスを構築するための作業エリアです。これはデザイン画面のキャンバスであり、オペレータをドラッグする、またはプロセスをダブルクリックすると、オペレータがプロセスに表示されます。
プロセスを構築する際には、まず、データセットであるcustomer-churn-dataをプロセスパネルにドラッグします。次に、Filter Examplesオペレータを追加し、それらを接続します。
リポジトリ
データ、RapidMinerプロセス、そして9.7以降はその他すべてのためのストレージ機構です。ベストプラクティスでは、ファイルまたはデータベースから直接読み込むのではなく、データストレージにリポジトリを使用することを推奨しています。Readオペレータを使用する場合、RapidMinerでメタデータを使用できなくなり、使用できる機能が制限されます。
デフォルトでは、RapidMiner StudioはリポジトリのSamplesディレクトリに様々なサンプルデータセットとプロセスが格納されています。このチュートリアルが完了すると、Local Repositoryにはデータ、プロセス、およびConnectionsフォルダが含まれます。RapidMiner AI Hubにアクセスできる場合、リポジトリパネルからRapidMiner AI Hub Repositoryにアクセスでき、9.7以降では、RapidMiner AI Hubに保存されているバージョンのProjectsに接続することができます。
ロール
属性の識別タグまたは機能です。ロールは属性にRapidMiner上での特別な意味や扱いを伝えます。RapidMinerには、いくつか事前に定義されたロールがあり、独自のロールを作成する機能もあります。label ロールは予測の対象を定義する上で最も重要です。ロールが割り当てられていない属性は、通常属性(regular attribute)とよばれます。
labelロールをchurn属性に適用します。データセットに行番号が含まれている場合は、その属性にidロールを割り当てます。他のすべての属性にはロールが割り当てられていないため、通常属性となります。
学習
予測関係を見つけるプロセスです。この学習プロセスの結果がモデルです。
Churn属性にlabelロールを割り当てると、年齢、性別、支払い方法、最終取引を考慮した決定木が作成され、新規データへのルールが作成されます。
ビュー
特定の機能にアクセスする「作業エリア」です。事前に定義された 2 つのビューがあります。エクステンションの中には、独自のビューを追加できるものもあります(例:Radoop Extension)。また、ビューメニューの新規パースペクティブをクリックして、独自のビューを作成することもできます。
各ビューの位置づけを確認するには、吹き出し文字と一緒に説明文を参照してください。
- デザイン:プロセスの構築と管理のためのキャンバスとツール
- 結果:設計したプロセスの結果をさまざまな形式で可視化
- Hadoop Data:Radoop関連の作業へのアクセス
RapidMinerのデータ型
以下の用語は、RapidMinerが属性に割り当てるデータ型について説明しています。データ型を定義することで、属性が行える処理の種類を指定します。RapidMinerは数値、テキスト、日付の自然な区分をサポートしています。numericは数値のラベルであり、テキストや文字列の場合はnominal、日付の場合はdate_timeです。
attribute
すべての可能なタイプ(「任意のタイプ」)の親
binominal
2つの値のみ(例:true/falseまたはyes/no)
date
時間のない日付(例:23.12.2014)
date_time
日付と時間の両方(例:23.12.2014 17:59)
file_path
より詳細な区別を可能にするnominalデータ型です(まれに使用されます)。列を「ファイルパスのみを含む」としてマークするために使用できます。
integer
整数(例:23、-5、11,024,768)
nominal
あらゆる種類のテキスト値(polynomialとbinomialを含む)
numeric
あらゆる種類の数値(date、time、 integer、real を含む)
polynominal
多くの異なる文字列の値(例:赤、緑、青、黄など)
real
小数(例:11.23や-0.0001など)
text
(polynomialと区別するために)より詳細な区別を可能にするnominalデータ型
time
日付のない時間(例:17:59)
オペレータポート情報
以下のテーブルに各ポートの略称と簡単な説明を示します。
ポートの略称 | 意味 | 概要 |
---|---|---|
ano | Anova | ANOVA有意性テストのためのANOVAマトリクス |
ann | Annotation | 入力オブジェクトから抽出されたアノテーション |
arc | Archive | オペレータの実行中に生成されたアーカイブファイル |
ass | Association | 頻出アイテムセットで発見された相関ルール |
att | Attribute | 属性の重み(入力と出力) |
ave | Average | パフォーマンスの測定(提供された完全なデータセットで構築されたモデルを使用した、パフォーマンスの推定値) |
clu | Cluster model | Example Setをクラスタリングした際に作成されるクラスタモデル |
clu | Clustered set | クラスタリングを行うオペレータに与えられたExample Setで、Clusterロールを持つ属性を含みます(各Exampleのクラスタを記述します) |
col | Collection | オブジェクトのコレクション |
con | Condition | 任意のオブジェクトを受け付け、パラメータで指定された条件は、このオブジェクトでテストされます。 |
cov | Covariance | 共分散行列 |
dic | Dictionary | 与えられたExample Setに対し、’from’の値を’to’の値に置き換えるために使用されるExample Set |
dis | Distance measure | 類似性測定のオブジェクト |
doc | Document | 文書または文書セット |
err | Error | 標準エラーの出力 |
est | Estimated performance | モデルの統計的性能の推定を与えるSVMモデルのパフォーマンスベクトル |
exa | Example set | Example set |
fil | File | ファイルオブジェクト |
fla | Flat | フラットコレクションまたはフラットクラスタリングモデル |
for | Formula | 式の結果 |
fre | Frequent | アソシエーションルール学習の頻出アイテムまたはアイテムセット |
gro | Grouped | グループ化されたモデル、属性、アイテム |
hie | Hierarchical | 階層型クラスタリングモデル |
inp | Input | 入力ソース(さまざまなオブジェクトを取得可能) |
ite | Item sets | 頻出アイテムセット(データ内でよく一緒に表示されるアイテムのグループ) |
joi | Join | 左と右のExample Setを結合したもの |
lab | Labeled data | 入力ポートから与えられたモデルをExample Setに適用し、更新されたExample Setをこのポートから出力します。 |
lef | Left | Joinの左のExample Setとして使用されるExample Setを入力するポート |
lif | Lift chart | 与えられたモデルとExample Setのリフトパレート図 |
mat | Matrix | 入力されたExample Setの全属性の相関行列 |
mer | Merged | マージされたExample set |
mod | Model | この出力ポートからのデフォルトモデル |
obj | Object | IOオブジェクト |
ori | Original | 入力されたExample Setは、何も変更されずにこのポートから出力されます。 |
out | Output | 出力ポート |
par | Parameter set | オペレータに適用できるパラメータのセット |
pat | Patterns | 与えられたExample SetにGSPアルゴリズムが適用され,その結果のシーケンシャルパターンセットがこのポートから出力されます |
per | Performance | 選択された属性のパフォーマンスベクトル |
pre | Preprocessing | 現在のプロセスにおけるオペレータのパラメータに関する情報を持つ前処理モデル |
ran | Random forest | ランダムフォレストのモデル |
ref | Reference | 与えられた参照データまたは参照セット |
req | Request set | 与えられたExample set |
res | Result set | リクエストセットとリファレンスセットのExample間の距離または類似性 |
rig | Right | Joinの右のExample Setとして使用されるExample Setを入力するポート |
roc | ROC curve | 含まれているモデルのROC曲線の計算 |
rul | Rules | 頻出アイテムセットで発見された相関ルール |
sec | Second | 添付のサンプルプロセスでは、Generate IDオペレータの出力結果から得られたExample Setを入力に取得しています。 |
seg | Segment | 画像のセグメント |
sel | Selected | indexパラメータで指定されたオブジェクトがこのポートから返されます。 |
ses | Session | セッションExample Set |
sig | Significance | パフォーマンスベクトルを比較した有意性のテスト結果は、このポートを通じて提供されます |
sim | Similarity | 与えられたExample Setの各Exampleと、それ以外のExampleとの類似度を計算したものです。 |
sin | Single | オペレータの内部で処理される、指定されたコレクションの単一オブジェクト |
sta | Stacking | Exampleまたはモデルのスタッキング |
sto | Stored | このポートを介して入力されたオブジェクトは、変更されることなく出力されます。 |
sub | Subtrahend | Example Setを入力します(入力するExample SetはID属性が必要です)。 |
sup | Superset | 入力されたExample Setの上位集合(スーパーセット) |
thr | Through | オブジェクトは変更されることなく渡されます。 |
thr | Threshold | Select Recallオペレータのしきい値出力 |
tra | Training | モデルを訓練する学習データ(Example Set) |
uni | Union | 入力されたExample Setの和集合(ユニオン) |
unl | Unlabeled | ラベルが付いておらず、モデルの学習時に使用されないExample |
unm | Unmatched | 元のExample Setで指定されたパターンにマッチしなかったExample |
unr | Unrelated | 元のExample Setで指定されたパターンとは無関係なExample |
vis | Visualization | 自己組織化マップ(SOM)の可視化 |
wei | Weights | 属性の重み |
wor | Word | 単語リストを入力または出力します。 |
xsl | XSLT | XSLT(EXtensible Stylesheet Language)の文書 |