简单的介绍一下评价分类器常用指标

发表: 2016-12-12 浏览: 1746

我们日常用的分类算法有很多种，不同的份额里算法又用不同的测度指标，所以在不同的数据集上会有表现也会有所不同；所以这时候对分类器的性能判断尤为重要，所以有几个简单的性能评价指标，简单说下在说之前先说下几个字母和一个常见术语

1、TP:被正确划分为正例的个数，既实际为正例且被分为正例的样本数

2、FP:被错误划分为正例的个数，既实际为负例但被分类器划分为负例的样本数

3、FN:被错误地划分为负例的个数，既实际为正例但被分为负例的的样本数

4、TN:被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的样本数

Clipboard Image.png

准确率

准确率是最为常用的分类性能指标，对整个样本集的判断能力，即将正的判定为正、负判定为负（TP+TN）/(P+N),一般通常来说准确率越高分类器越好

精度

精度就是精确性的度量，表示被分为正例的示例中实际为正例的比例 PRECISION=TP/(TP+FP)

召回率

就是样本中预测正确的示例除于实际正示例数目之比，表现出真正是正样本中分类器能召回多少TP/P

ROC曲线

ROC是受试者工作特征曲线 receiver operating characteristic curve ) 的简写，其中曲线选取两个指标作为横轴和纵轴；在信息检索中通常准确率高，召回率低，或者召回率低，但准确率高，所以根据实际情况需要做出取舍

横轴为真正类率（TPR）计算公式TPR=TP/(TP+FN)

纵轴为假正类率（TPR）计算公式FPR=FP/(FP+TN)

然后两个指标围成的面积叫做AUC面积，这个面积也可以作为分类器的性能评价指标，面积越大，分类器性能越好；ROC良好的刻画了不同阀值对样本的分辨能力，也同时反应出对正例和对反例的分辨能力，方便使用者根据实际需求选用合适的阀值

Clipboard Image.png

此图来自百度

AUC值

顾名思义，就是ROC曲线下（Area Under roc Curve）的简称，AUC值就是出于ROC曲线下方的面积大小，通常，AUC的值介于0.5到1.0之间，AUC值越大，诊断的准确性高，在ROC曲线上，最靠近坐标左上方的点位敏感性和特异性均较高的临界值

0 个评论

要回复文章请先登录或注册