简单的介绍一下评价分类器常用指标

浏览: 1746

我们日常用的分类算法有很多种,不同的份额里算法又用不同的测度指标,所以在不同的数据集上会有表现也会有所不同;所以这时候对分类器的性能判断尤为重要,所以有几个简单的性能评价指标,简单说下在说之前先说下几个字母和一个常见术语

1、TP:被正确划分为正例的个数,既实际为正例且被分为正例的样本数

2、FP:被错误划分为正例的个数,既实际为负例但被分类器划分为负例的样本数

3、FN:被错误地划分为负例的个数,既实际为正例但被分为负例的的样本数

4、TN:被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的样本数

Clipboard Image.png

准确率

准确率是最为常用的分类性能指标,对整个样本集的判断能力,即将正的判定为正、负判定为负(TP+TN)/(P+N),一般通常来说准确率越高分类器越好

精度

精度就是精确性的度量,表示被分为正例的示例中实际为正例的比例 PRECISION=TP/(TP+FP)

召回率

就是样本中预测正确的示例除于实际正示例数目之比,表现出真正是正样本中分类器能召回多少TP/P

ROC曲线

ROC是受试者工作特征曲线 receiver operating characteristic curve ) 的简写,其中曲线选取两个指标作为横轴和纵轴;在信息检索中通常准确率高,召回率低,或者召回率低,但准确率高,所以根据实际情况需要做出取舍

横轴为真正类率(TPR)计算公式TPR=TP/(TP+FN)

纵轴为假正类率(TPR)计算公式FPR=FP/(FP+TN)

然后两个指标围成的面积叫做AUC面积,这个面积也可以作为分类器的性能评价指标,面积越大,分类器性能越好;ROC良好的刻画了不同阀值对样本的分辨能力,也同时反应出对正例和对反例的分辨能力,方便使用者根据实际需求选用合适的阀值

Clipboard Image.png

                         此图来自百度

AUC值

顾名思义,就是ROC曲线下(Area Under roc Curve)的简称,AUC值就是出于ROC曲线下方的面积大小,通常,AUC的值介于0.5到1.0之间,AUC值越大,诊断的准确性高,在ROC曲线上,最靠近坐标左上方的点位敏感性和特异性均较高的临界值



推荐 4
本文由 夏尔康 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册