RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

交差検証のPrecisionとRecall

 

(回答)

RapidMinerにあるSamplesより、Golfデータセットを利用いたします。

Golfデータセットとは天気や温度・湿度などを見てゴルフをプレイしたかしていないか、というものを計測したものです。なお、Temperature(温度)が85などになっているのは、アメリカの温度表示が華氏(F)というものを使うためです。日本では摂氏(C)を用いています。華氏85度は摂氏30度くらいを表します。

 

以下のようにオペレータを繋げてください。

Golfデータセットは14行しかデータがないので、number of foldsを3にし、また同じ乱数を発生できるようにuse local random seedにチェックを入れてください。

交差検証の中は以下のように繋げ、途中経過を見れるようにperformanceにブレークポイント(後)を入れておきます。

また、このときのk-NNのkを1にし、weighted-voteのチェックを外しておきます。

 

これで実行すると、number of foldsを3にしているので、3つの混合行列と最終的な結果が得られます。

適合率(precision)を緑、再現率(recall)を青で囲っています。

一回目の結果

二回目の結果

三回目の結果

 

最終的な結果の、precisionを見てください。ここの混合行列の適合率70%は全体での結果なのでmicro averageになります。

 

ではprecision:65.56%は何なのかというと、一回目、二回目、三回目の適合率の平均を表しています。

つまり、{66.67(一回目)+80.00(二回目)+50.00(三回目) } ÷ 3 = 196.67 ÷ 3 = 65.56

になります。

今はpositive classがyesになっているのでyesの適合率しか出ていませんが、noの適合率も存在します。

 

再現率についても同様ですので、ぜひ算出してみてください。

Recallが72.22%になると思います。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル