哈密安全云服务器地址描述::
评价指标是评判数据表现的衡量标准,它是数据分析中非常重要的部分,也是产品经理必须掌握的重点内容。不同的数分任务采用不同的评价指标,对于同一种任务在不同场景下也会采用不同的评价指标。
例如在检测垃圾邮件这个场景中,这是一个典型的二分类问题,所以可以用精确率和AUC曲线这两个指标判断模型的效果;在人脸识别场景中,使用误识率、拒识率和ROC曲线这三个指标评判模型的效果。
不同指标的着重点不一样,一个指标在不同场景下适用性可能不一样,产品经理需要学习不同指标的特性,在项目中根据实际需要选择不同的评价指标。下文中我们重点讲解一些产品经理常用的评价指标。
01 混淆矩阵混淆矩阵(Confusion Matrix)是评价模型精度的一种标准格式,用一个N行N列的矩阵形式来表示。矩阵每一列代表预测值,每一行代表实际值。
从混淆矩阵的名字不难看出来,它的作用是表明多个类别之间是否有混淆,也就是模型到底判断对了多少个结果,有多少个结果判断错了。同时混淆矩阵能够帮助我们理解准确率、精确率和召回率的区别。面对一个二分类问题时,通常我们会将结果表示为正类与负类,两者可以随意指定。在上述区分猫狗图片的例子中,我们假定猫为正类、狗为负类。那么在实际进行预测的时候就会出现四种情况,如下图所示:
混淆矩阵
如果这张图片是猫,机器预测出来的结果也是猫,这种情况称为真正类(True Positive,以下简称TP);
如果这张图片是狗,机器预测出来的结果也是狗,这种情况称为真负类(True Negative,以下简称TN);
如果这张图片是猫,机器预测出来的结果是狗,这种情况称为假负类(False Negative,以下简称FN);
如果这张图片是狗,机器预测的结果是猫,则为假正类(False Positive,以下简称FP)。
02 准确率准确率(Accuracy)是指预测正确的样本占总样本的比例,即模型找到的真正类与真负类与整体预测样本的比例。用公式表示为Accuracy=(TP+TN)(TP+TN+FP+FN)准确率的取值范围为[0,1],一般情况下取值越大,代表模型预测能力越好。
假设上述猫狗图片分类的例子中,猫狗图片各有500张。最后模型预测的结果中真正类有318个,真负类有415个,假正类有75个,假负类有182个。根据准确率的定义可以算出来目前模型的准确率为:(318+415)(1000)=073。
准确率是评价模型效果最通用的指标之一,描述模型找到真类别的能力。也就是说模型准确识别出猫和狗的概率为073。但是在使用的时候有两点需要我们注意。首先是准确率没有针对不同类别进行区分,最后求得的准确率对每个类别而言是平等对待的,这种评价方式在很多场景下是有欠缺的。
在本例中,虽然可以看到模型的整体准确率是7330,但是从结果中明显可以看出来,模型对于猫的识别效果远不如对狗的识别效果。如果我们模型的目的是为了把猫的图片挑出来,那么这个准确率就有些虚高。
在实际的病患诊断中,计算机诊断出某患者患有癌症,实际上却未患癌症与计算机诊断出某患者未患有癌症,而实际上却患有癌症这两种情况的重要性不一样,不能一概而论。我们需要明确后续是降低误诊率还是提高确诊率,才能让后续模型优化更有针对性。
另外在正负样本极不平衡的情况下,准确率这个指标存在很大的缺陷。例如在银行的全量客户中,要寻找适合推荐信托产品的超高净值客户是非常难的。因为这部分人群要求存款较多、收入较高,比较稀少,往往只有万分之一的概率。
如果一个预测客户适不适合信托产品的模型用准确率去评判,哪怕模型把全部客户预测成负类,即全部都是不适合的情况,那么这个模型的精度也有 99 以上。
但这个指标就失去了原有的意义,因为无法找到任何高净值的人群。所以我们一再强调,没有万能的指标,根据场景选择合适的指标非常重要。
03 精确率与召回率精确率(Precision)和召回率(Recall)是一对好兄弟,虽然是两个不同的评价指标,但它们互相影响,通常一起出现。在很多书上又把精确率称为查准率,把召回率称为查全率。
召回率是针对原始样本而言的指标,它表示原始样本中的正例有多少被预测正确。原始样本中的正例有两种情况,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),这两种情况组成了原始样本所有的正例。计算公式为
Recall=TP(TP+FN) 上述模型中识别猫类图片的召回率
318(318+182)=063从这个角度可以看出来总共500张猫的图片,模型只找对了318张,相比准确率而言,召回率更真实地反应了模型的效果。而精确率是针对预测结果而言的指标,它表示预测为正类的样本中有多少是对的。预测结果为正例有两种情况,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。所以精确率的计算公式为Precision=TP(TP+FP)即上述模型中识别猫类图片的精确率为
318(318+75)=081从这个指标可以看出来模型总共把393张图片预测为猫,其中只有318张图片预测正确。所以模型可能存在欠拟合的情况,将部分狗的照片判断成猫,判断为正类的条件太宽松。下一步优化的时候可以选择适当降低条件以此提高模型效果。如下图所示可以看出精确率与召回率的区别: