召回率(召回率和准确率的经典例子)
精确率和召回率
原文 精确率,召回率
刚开始接触这两个概念的时候总搞混,时间一长就记不清了。
实际上唯哗闭非常简单,精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有指裂多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是
而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也芦轮有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。
在信息检索领域,精确率和召回率又被称为查准率和查全率,
查准率=检索出的相关信息量 / 检索出的信息总量
查全率=检索出的相关信息量 / 系统中的相关信息总量
假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。
准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%
精确率(precision) = TP/(TP+FP) = 80%
召回率(recall) = TP/(TP+FN) = 2/3
除此之外,还有ROC曲线,PR曲线,AUC等评价指标,可以参见我的博客: 机器学习性能评估指标 **
相关链接: 机器学习和统计里面的auc怎么理解?
ROC,AUC,Precision,Recall,F1的介绍与计算
精确率,准确率,召回率,F-score
TP (true positives):正类被判断为正类;
FP (false positives):负类被判断为负类;
FN (false negatives):正类被判断为负类;
TN (true negatives):负类被判断为负类;
精确率(precision): 是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负简旅御类预测为正类(FP);
召回率(recall): 表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN);
准确率(accuracy): 所有的预测正确(正类负类)的占总的比重。
F-score值: F1值为算数平均数除以几何拦岩平均数,且越大越好,将Precision和Recall的上述公式带入会发现,当F1值小时,True Positive相对增加,而false相对减少,即Precision和Recall都相对增加,即F1对Precision和Recall都进行了加权。
1. 准确率
虽然准确率能够判断总的正确率,但是在样本不均衡的情况下,并不能作为很好的指标来衡量结果。
比如在样本集中,正样本有90个,负样本有10个,样本是严重的不均衡。对于这种情况,我们只需要将全部样本预测为正样本,就能得到90%的准确率,但是完全没有意义。对于新数据,完全体现不出准确率。因此,在样本不平衡的情况下,得到的高准确率没有任何意义,此时准确率就会失效。所以,我们需要寻找新的指标来评价模型的优劣。
2 . 精确率
精确率(Precision) 是针对预测结果而言的,其含义是在被所有预测为正的样本中实际为正样本的概率,精确率和准确率看上去有些类似,但是是两个完全不同的概念。精确率代表对正样本结果中的预测准确程度,准确率则代表整体的预测准确程度,包括正样本和负样本。
3. 召回率
召回率(Recall) 是针对原样本而言的,其含义是在实际为正的样本中被预测为正样本的概率。
准确率和召回率互相影响,理想状态下肯定追求两个都高,但是实际情况是两者相互“制约”:追求准确率高,则召回率就低;追求召回率高,则通常会影响准确率。我们当然希望预测的结果precision越高越好, recall越高越好, 但事实上这两者在某些情况下是矛盾的。这样就需要综合考虑它们,最常见的方法就是F-score。 也可以绘制出P-R曲线图,观察它们的分布情况。
4. F-score
一般来说准确率和召回率呈负相关,一个高,一个就低,如果两个都低,一定是有问题的。 一般来说,精确度和召回率之间是矛盾的,这里引入F1-Score作为综合指标,就是为了平衡准确率和召回率的影响,较为全面地评价一个分类器。F1是精确率和召回率的调和平均。镇液
什么是召回率?
问题一:什么是召回率与精度 一直搞不清搜索引擎的查全率和查准率是什么意思,只知道这两个是衡量一个搜索引擎性能的. 今个 看一篇 南大的学士论文的时候, 又碰到这个问题. 所以决定把他搞清楚, 上百度搜了一下, 所获很多. 查全率[召回率]与精度[查准率] 之辨析:召回率(recall rate)和精度(precision)定义: 从一个大规模数据 *** 中检索文档的时,可把文档分成四组 -系统检索到的相关文档(A)- 系统检索到的不相关文档(B)- 相关但是系统没有检索到的文档(C)- 相关但是被系统检索到的文档(D)相关不相关检索到AB未检索到CD直观的说,一个好的检索系统检索到的相关文档越多越好,不相关文档越少越好.召回率和精度是衡量信息检索系统性能最重要的参数.召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即 R=A/(A+C)精度P: 用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即 P=A/(A+B). 下面举例说明召回率和精度之间的关系:一个数据库有500个文档, 其中有50个文档符合定义的问题.系统检索到75个文档,但是只有45个符合定义的问题. 召回率 R=45/50=90%精度P=45/75=60%本例中, 系统检索是比较有效的,召回率为90%. 但是结果有很大的噪音, 有近一半的检索结果是不相关. 研究表明: 在不牺牲精度的情况下,获得一个高召回率是很困难的.召回率越高,精度下降的很快,而且这种趋势不是线性的.来自:召回率与精度
问题二:召回率是什么意思 召回率检索出相关文档数和文档库所有相关文档数比率衡量检索系统查全率;精度检索出相关文档数与检索出文档总数比率衡量检索系统查准率对于检索系统来讲召回率和精度能两全其美:召回率高时精度低精度高时召回率低所常常用11种召回率下11种精度平均值来衡量检索系统精度对于搜索引擎系统来讲因没有搜索引擎系统能够搜集察袭野所有WEB网页所召回率难计算目前搜索引擎系统都非常关心精度
影响搜索引擎系统性能有多因素主要信息检索模型包括文档和查禅腔询表示方法、评价文档和用户查询相关性匹配策略、查询结排序方法和用户进行相关度反馈机制
问题三:召回率是什么意思 是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系败喊统的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
问题四:召回率的计算方法 召回率和精度示意图假定:从一个大规模数据 *** 中检索文档的时,可把文档分成四组:- 系统检索到的相关文档(A)- 系统检索到的不相关文档(B)- 相关但是系统没有检索到的文档(C)- 不相关且没有被系统检索到的文档(D)则:- 召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即R = A / ( A + C )- 精度P:用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即P = A / ( A + B ).举例来说:一个数据库有500个文档,其中有50个文档符合定义的问题。系统检索到75个文档,但是只有45个符合定义的问题。召回率R=45/50=90%精度P=45/75=60%本例中,系统检索是比较有效的,召回率为90%。但是结果有很大的噪音,有近一半的检索结果是不相关。研究表明:在不牺牲精度的情况下,获得一个高召回率是很困难的
问题五:模式识别 召回率代表什么 实际为真且检测为真的/(实际为真且检测为真的+实际为真且检测为假的)
问题六:如何解释召回率与准确率 数据集中 : 正例 反例
你的预测 正例 : A B
你的预测 反例 : C D
准确率就是A/(A+B) 大白话就是“你的预测有多少是对的”
召回率就是A/(A+C) 大白话就是“正例里你的预测覆盖了多少”
问题七:如何解释召回率与准确率 数据集中:正例反例你的预测正例:AB你的预测反例:CD准确率就是A/(A+B)大白话就是“你的预测有多少是对的”召回率就是A/(A+C)大白话就是“正例里你的预测覆盖了多少”
问题八:召回率的常用名词 TP ―― True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率TN ―― True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率FP ――False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率FN――False Negative(假负 , FN)被模型预测为负的正样本;可以称作漏报率True Positive Rate(真正率 , TPR)或灵敏度(sensitivity) TPR = TP /(TP + FN) 正样本预测结果数 / 正样本实际数True Negative Rate(真负率 , TNR)或特指度(specificity) TNR = TN /(TN + FP) 负样本预测结果数 / 负样本实际数False Positive Rate (假正率, FPR) FPR = FP /(FP + TN) 被预测为正的负样本结果数 /负样本实际数False Negative Rate(假负率 , FNR) FNR = FN /(TP + FN) 被预测为负的正样本结果数 / 正样本实际数
问题九:如何提高机器学习算法的召回率 最近在做文本分类,遇到了一些问题,想问问大家有没有好的方法。为了节省时间,我只采取了部分数据来跑算法(全部数据跑了之后的结果和这个差不多)
训练集:4837 documents
测试集:2074 documents
样本比例:正样本:负样本 = 1:3
预测结果中,有的算法在正样本中预测的精确率还行(0.95-1.00之间),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精确率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比较平均,但是也没有到0.8。
问题:我查了一下那些召回率较低(0.01)的算法,475个样本中(正样本),实际上只有5个被预测正确了的,但是具体原因没有查出来。
我想请问一下:1.召回率低是因为样本极度不平衡造成的吗?(虽然我认为1:3的比例不算极度不平衡。)2.在这种样本不平衡的问题上,有没有什么好的方法可以提高召回率?我试过SMOTE方法(过采样和欠采样都有试过),但对于我的数据集并没有什么好的效果,不止到有没有有什么好的方法可以解决这个问题?谢谢!
添加评论
分享
查看全部 11 个回答
0赞同反对,不会显示你的姓名
Elvin 全是细枝末节,做一个乐于分享的人
两个问题一并回答一下,根据你的描述,我觉得问题应该不是出在正负样本比上,1比3这个比例不但不是非常不均衡,相反在我看来已经是非常均衡了。以前做比赛有处理过正负比1比10000的数据,我觉得这才叫不平衡,才需要使用类似上采样,下采样,以及SMOTE算法(都用过),而且这样的情况下recall,F1等指标的提升是显著的。我觉得正负比例在1:1至1:100间差别都不会太大,需要根据具体问题做离线交叉验证去找到最好的比例。
所以我建议你不用再纠结正负样本比的问题,可以再回头看一看你的数据集,一方面看一看代码是否有误?数据集是否太小?(总觉得你的数据集太小,而且测试集相对于训练集太大)另外训练集,测试集的划分是否正确?或者重新划分一下训练测试集做一下交叉验证看一看各项指标再具体研究。
问题十:f-measure的准确率/精确率/召回率 准确率(accuracy),精确率(Precision)和召回率(Recall) 是信息检索,人工智能,和搜索引擎的设计中很重要的几个概念和指标。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。 先假定一个具体场景作为例子。假如某个班级有男生80人,女生20人,共计100人.目标是找出所有女生.某人挑选出50个人,其中20人是女生,另外还错误的把30个男生也当作女生挑选出来了.作为评估者的你需要来评估(evaluation)下他的工作首先我们可以计算准确率(accuracy),其定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上的准确率 .这样说听起来有点抽象,简单说就是,前面的场景中,实际情况是那个班级有男的和女的两类,某人(也就是定义中所说的分类器)他又把班级中的人分为男女两类。accuracy需要得到的是此君分正确的人占总人数的比例。很容易,我们可以得到:他把其中70(20女+50男)人判定正确了,而总人数是100人,所以它的accuracy就是70 %(70 / 100).由准确率,我们的确可以在一些场合,从某种意义上得到一个分类器是否有效,但它并不总是能有效的评价一个分类器的工作。举个例子,google抓取了argcv 100个页面,而它索引 *** 有10,000,000个页面,随机抽一个页面,分类下,这是不是argcv的页面呢?如果以accuracy来判断我的工作,那我会把所有的页面都判断为不是argcv的页面,因为我这样效率非常高(return false,一句话),而accuracy已经到了99.999%(9,999,900/10,000,000),完爆其它很多分类器辛辛苦苦算的值,而我这个算法显然不是需求期待的,那怎么解决呢?这就是precision,recall和f1-measure出场的时间了.在说precision,recall和f1-measure之前,我们需要先需要定义TP,FN,FP,TN四种分类情况.按照前面例子,我们需要从一个班级中的人中寻找所有女生,如果把这个任务当成一个分类器的话,那么女生就是我们需要的,而男生不是,所以我们称女生为正类,而男生为负类. 相关(Relevant),正类无关(NonRelevant),负类被检索到(Retrieved)true positives(TP 正类判定为正类,例子中就是正确的判定这位是女生)false positives(FP 负类判定为正类,存伪,例子中就是分明是男生却判断为女生,当下伪娘横行,这个错常有人犯)未被检索到(Not Retrieved)false negatives(FN 正类判定为负类,去真,例子中就是,分明是女生,这哥们却判断为男生--梁山伯同学犯的错就是这个)true negatives(TN 负类判定为负类,也就是一个男生被判断为男生,像我这样的纯爷们一准儿就会在此处)通过这张表,我们可以很容易得到例子中这几个分类的值:TP=20,FP=30,FN=0,TN=50.精确率(precision)的公式是 ,它计算的是所有被检索到的item(TP+FP)中,应该被检索到的item(TP)”占的比例。在例子中就是希望知道此君得到的所有人中,正确的人(也就是女生)占有的比例.所以其precision也就是40%(20女生/(20女生+30误判为女生的男生)).召回率(recall)的公式是 ,它计算的是所有检索到的item(TP)占......
精度评定中的准确率(Precision)和召回率(Recall)
转自
在模式识别中,我们经常会使用到一些指标对目标识别或者影像分类的结果进行评价。
假设我们需要将一个样本集分类为苹果和非苹果两类,那么分类结果有四种情况:
第一种情况歼局:True Positive,本来就是苹果被分类成苹果;
第二种情况:False Positive,本来不是苹果被分类成苹果;
第三种情况:False Negative,本来是苹亮启果被分类成非苹果;
第四种情况:True Negative,本来不是苹果被分类成为非苹果。
True是指分类正确,False是指分类错误。
Positive是指被分类器分为苹果(正样本),Negative是指被分类器分为非苹果(负样本)。
这里我们引入三个指标来对分类器进行评价:
(1)准确率(Precision),又称“精度”、“正确率”;
(2)召回率(Recall),又称“查全率”;
(3)F1-Score,准确率和召回率的综合指标。
三个指标的定义如下:
一般来说,准确率和召回率反映了分类器性能的两个方面,单一依靠某个指标并不能较为全面地评价一个分类器的性能。
假如分类器只将苹果特征十分明显、是苹果的概率非常高的样本分为苹果,其余的样本分为非苹果,此时该分类器的准确率就会非常的高,但是它因为将所有疑似苹果都错误分为非苹果,召回率变得非常低。
假如分类器将所有可能为苹果的样本全部划分为苹果,其余的样本为非苹果,此时该分类器的召回率会非常之高,但是它因为将所有可能为苹果的样本分为苹果时引入了许多错误,准确率不可能高。
引入F1-Score作为氏键让综合指标,就是为了平衡准确率和召回率的影响,较为全面地评价一个分类器。
有时候考虑到不同的需求,可能会更看重准确率或者召回率。这时我们可以引入F2-Score和F0.5-Score。包括F1-Score,这三个指标都来自以下定义,只是参数不同。
其中,F1-Score是指准确率和召回率一样重要;
F2-Score是指召回率比准确率重要一倍;
F0.5-Score是指准确率比召回率重要一倍。
正确率和召回率
正确率(Precsion)和召回率(Recall)是广泛应用于信息检索和统计学分类领域的两个度量值,用来评估结果的质量。
一般来说,正确率就是检索出来的条目有多少是正确的,召回率就是所有正确的条目有多少被检索出来
是综合上面两个指标的估计指标,用于反映整体的指标
这几个指标的取值都在 0 - 1 之间,数值越接近于 1 效果越好。
有三类事物分别为 A,B 和 C 他们数量衡岁分别是 1400,300,300 我们目标获得更多的 A,进行一次收集后得到 A B 和 C 数量分别是 700,200 和 100 那么
我们希望检索的结果的正确率越高越好,同时也希望召回率越高越好不过在某些情况他们之间是矛盾的伏拦基。有的时候我们想要提高准确率就会影响召回率,反之亦然。
正式因为正确率和召回率指标有时候出现的矛盾原因,我们可以通过 F-Measue 来综合考虑指标这时候我们就可以用 F1值来综合考虑。
其实上面介绍 F1公式是缺谨这个 公式的特例。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。