我们日常用的分类算法有很多种,不同的份额里算法又用不同的测度指标,所以在不同的数据集上会有表现也会有所不同;所以这时候对分类器的性能判断尤为重要,所以有几个简单的性能评价指标,简单说下在说之前先说下几个字母和一个常见术语
1、TP:被正确划分为正例的个数,既实际为正例且被分为正例的样本数
2、FP:被错误划分为正例的个数,既实际为负例但被分类器划分为负例的样本数
3、FN:被错误地划分为负例的个数,既实际为正例但被分为负例的的样本数
4、TN:被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的样本数
准确率
准确率是最为常用的分类性能指标,对整个样本集的判断能力,即将正的判定为正、负判定为负(TP+TN)/(P+N),一般通常来说准确率越高分类器越好
精度
精度就是精确性的度量,表示被分为正例的示例中实际为正例的比例 PRECISION=TP/(TP+FP)
召回率
就是样本中预测正确的示例除于实际正示例数目之比,表现出真正是正样本中分类器能召回多少TP/P
ROC曲线
ROC是受试者工作特征曲线 receiver operating characteristic curve ) 的简写,其中曲线选取两个指标作为横轴和纵轴;在信息检索中通常准确率高,召回率低,或者召回率低,但准确率高,所以根据实际情况需要做出取舍
横轴为真正类率(TPR)计算公式TPR=TP/(TP+FN)
纵轴为假正类率(TPR)计算公式FPR=FP/(FP+TN)
然后两个指标围成的面积叫做AUC面积,这个面积也可以作为分类器的性能评价指标,面积越大,分类器性能越好;ROC良好的刻画了不同阀值对样本的分辨能力,也同时反应出对正例和对反例的分辨能力,方便使用者根据实际需求选用合适的阀值
此图来自百度
AUC值
顾名思义,就是ROC曲线下(Area Under roc Curve)的简称,AUC值就是出于ROC曲线下方的面积大小,通常,AUC的值介于0.5到1.0之间,AUC值越大,诊断的准确性高,在ROC曲线上,最靠近坐标左上方的点位敏感性和特异性均较高的临界值