交差検証のPrecisionとRecall
(回答)
RapidMinerにあるSamplesより、Golfデータセットを利用いたします。
Golfデータセットとは天気や温度・湿度などを見てゴルフをプレイしたかしていないか、というものを計測したものです。なお、Temperature(温度)が85などになっているのは、アメリカの温度表示が華氏(F)というものを使うためです。日本では摂氏(C)を用いています。華氏85度は摂氏30度くらいを表します。
以下のようにオペレータを繋げてください。
Golfデータセットは14行しかデータがないので、number of foldsを3にし、また同じ乱数を発生できるようにuse local random seedにチェックを入れてください。
交差検証の中は以下のように繋げ、途中経過を見れるようにperformanceにブレークポイント(後)を入れておきます。
また、このときのk-NNのkを1にし、weighted-voteのチェックを外しておきます。
これで実行すると、number of foldsを3にしているので、3つの混合行列と最終的な結果が得られます。
適合率(precision)を緑、再現率(recall)を青で囲っています。
一回目の結果
二回目の結果
三回目の結果
最終的な結果の、precisionを見てください。ここの混合行列の適合率70%は全体での結果なのでmicro averageになります。
ではprecision:65.56%は何なのかというと、一回目、二回目、三回目の適合率の平均を表しています。
つまり、{66.67(一回目)+80.00(二回目)+50.00(三回目) } ÷ 3 = 196.67 ÷ 3 = 65.56
になります。
今はpositive classがyesになっているのでyesの適合率しか出ていませんが、noの適合率も存在します。
再現率についても同様ですので、ぜひ算出してみてください。
Recallが72.22%になると思います。