❶ 为什么要预估点击率麻烦告诉我
2) 广告按点击收费 (Charge per Click, CPC), 下面我们会分别讨论一价计费 (First-Price, FP, 即广告出价多少则一次点击计费多少) 和二价计费 (Second-Price, SP, 即广告按下一位出价来支付点击价格, 更普遍的是 GSP)
3) 千次展现收费 (Cost Per Mille, CPM, 或 RPM, R for Revenue), 即对点击付费广告其展示一千次情况下的收入 (一价计费下等价于 1000*CTR*Bid), 或是展示广告的千次展现固定价格
4) 预估点击率 (predict CTR, pCTR) 是指对某个广告将要在某个情形下展现前, 系统预估其可能的点击概率目标分类搜索广告跟自然结果一个很大的区别就是自然结果只要有一点相关就应该放到所有结果里去, 至于先后位置那个再说, 而广告, 是有个相关性的准入门槛的, 不相关的广告出价再高, 丢出来还是会被骂死. 那怎么判断相关? 用户会用鼠标点击来对结果投票, 相关的广告会被点击, 不相关的广告不会被点击, 那很自然就能得出 "点击率和相关性正相关" 这个结论 (至于描述里写 "二十五岁以下免进" 但实际是钢材广告的这种诱骗行为后面再说怎么处理). 那对于这种相关性准入的场景, 预估点击率就是预估广告是否相关, 最朴素情况下这是个二分类问题, 那不管预估成怎样, 只要有一种分割方法能分开是否相关就行了. 此时预估点击率的目标是能对广告按相关与否分类 (或说按相关性排序并给出一个截断值). 评估分类问题好坏, 一般都是看准确和召回两个指标, 用人工打分的记录来做回归验证就行目标排序判断相关与否只是点击率预估对广告的一个小辅助, 我们来看看广告的目标是什么? 没错, 是赚钱. (我曾经在其他场合说过广告的目标是维持用户体验下持续赚钱, 不过跟赚钱这一简化目标这不冲突, 前面相关性上已经保证了维持用户体验, 那只要能让广告主还有的赚, 就能持续赚钱) 我们再把问题简化下, 如果广告都是一样的固定价格, 且就以这个价格按点击计费, 那在 PV 一定且预算充分的情况下, 更高的点击率则意味着更赚钱. 这样目标可以等价于怎么挑出更赚钱的广告, 就是那些点击率最高的广告, 我们只要能弄明白广告实际点击率的高低关系就能取得收益最大化, 预估点击率在这时候又是个排序问题, 我们只要弄对广告之间的序关系, 就可以收益最大. 评估排序问题的好坏, 一个经典方法是对 pCTR 的 ROC 曲线算 AUC (曲线下面积), 实际上我见过的做法也都是通过评估 AUC 的高低来判断点击率预估模型的好坏
目标带权排序
上一段里对广告这个业务做了很多简化, 比如大家价格都是一样的, 如果我们考虑价格不一样的情况, 那预期收益就会变成 (价格Bid*点击率CTR), 这个值很多地方也叫 CPM 或 RPM. 如果是对 CPM 排序, 那就需要我们预估的点击率在维持序关系正确的前提下, 还要保证相互之间的缩放比是一样的. 比如有广告 A, B, C, 实际点击率是 5%, 3%, 1%, 那在价格一致的情况下, 我预估成 5-3-1 还是 5-4-3 是没关系的, 但在价格不一样的情况下, 比如 1, 1.5, 3, 这时候 5-4-3 的预估点击率值会让他们的预估排名和实际排名刚好颠倒过来, 不过预估 5-3-1 或 10-6-2 (放大一倍) 倒没关系. 为了评估这个结果, 可以在描 ROC 曲线时把价格乘上去, 那最后还是判断排序问题的好坏, 加了价格的 AUC 我们可以叫 wAUC (weighted-AUC), 这个离线评估和在线效果依然可以对等目标准确从准确召回到 AUC 再到 wAUC, 看起来对已有问题可以完美解决了?
但是, 凡事怕但是, 在搜索广告里, 不同的展现位置对点击率还有影响, 比如广告 A, B 在第一位点击率是 5%, 3%, 而在第二位是 3%, 2%, 那只是同比缩放就很难保证最终比较是一致的问题了, 所以最好还是保证预估值跟实际值尽可能接近的好, 这样才能在预估时获得更实际用时完全一样的场景. 评估准确度, 我们有 MAE 和 MSE 等一堆指标, 也是现成的工作的比较好的东西扩展和吐槽有行家可能会吐槽说我刚那个不同广告在不同位置的衰减不一致这个说法, 跟公开论文说的不一样, Yahoo 的 paper 里说不同广告在同位置的衰减是一样的. 我只能说, 骚年, 你太天真了... 衰减因子怎么可能只是 f(pos) 这样一个简单函数, 从实际情况来看, 衰减函数和广告是有关的, 但我们又不能对每个广告都去估一个 f(pos, ad), 好在, 我们发现可以把不同的广告做聚类后得到一个 f(pos, type) 的函数簇, 事实上, 最后的衰减函数不仅仅有 pos 和 type 两个因子, 而且里面的因子可以极度简化, 最后的衰减用简单函数就能很好拟合, 我说的够多了, 再说估计要被前东家找麻烦, 你们来感受一下就好
❷ 计算广告 点击率预估用到的特征工程 有哪些特征
白雪歌送武判官归京(岑参)
❸ 展现广告点击率ctr预估 冷启动怎么解决
逻辑回归可以用在CTR(Click Through Rate)预估上,即通常所说的点击率预估。点击率预估的意义在于,搜索引擎等广告平台想要赚更多的钱,就要通过某一种机制让赚钱最多的广告排在前面(或有更多的概率被展示)。
一、排序规则
为了获得更多的收益,一般搜索引擎、广告联盟的排序规则是:
其中$bidPrice$是指广告主给出的竞拍价格,$CTR$就是我们预估的该广告的点击率,总体结果越高越容易被展示。
当然,这个最终的分数计算还有其他的规则,这里只是列出具CTR预估在这里的重要作用。
二、逻辑回归
我们依然使用之前在逻辑回归中用到的$sigmoid$函数作为模型:
含义为,我们给出一个查询Q和一个广告,预测其被点击(y=1)的概率。
我们的特征数据包括:广告质量得分、广告创意得分、Query与广告的相关性、相对价格、相对成交量等等,具体这些特征的值如何获得又是另外的课题,这里暂不涉及。
有了特征数据,现在我们有一批数据如下图所示:
0 20 0.294181968932 0.508158622733 0.182334278695 0.629420618229
0 68 0.1867187241 0.606174671096 0.0748709302071 0.806387550943
0 18 0.62087371082 0.497772456954 0.0321750684638 0.629224616618
1 90 0.521405561387 0.476048142961 0.134707792901 0.400062294097
0 75 0.0126899618353 0.507688693623 0.377923880332 0.998697036848
0 8 0.308646073229 0.930652495254 0.755735916926 0.0519441699996
0 64 0.444668888126 0.768001428418 0.501163712702 0.418327345087
0 79 0.842532595853 0.817052919537 0.0709486928253 0.552712019723
1 32 0.410650495262 0.164977576847 0.491438436479 0.886456782492
其中第一列是正样本(被点击)的个数,第二列是负样本(展示但未点击个数)。
三、逻辑回归
关于逻辑回归的原理可以参考我之前的文章,我们会发现这里的数据与之前的不同,每一行不再是一个单独的记录,而是一组记录的统计,这种形式在实践中更容易计算,并且更节省存储空间。
四、R逻辑回归
我们首先把数据读取到内存中,存储于ctr_data变量中:
ctr_data = read.csv('CTR_DATA.txt',header=F,sep=" ")
看一下里面的数据:
> head(ctr_data)
V1 V2 V3 V4 V5 V6
1 0 20 0.29418197 0.5081586 0.18233428 0.62942062
2 0 68 0.18671872 0.6061747 0.07487093 0.80638755
3 0 18 0.62087371 0.4977725 0.03217507 0.62922462
4 1 90 0.52140556 0.4760481 0.13470779 0.40006229
5 0 75 0.01268996 0.5076887 0.37792388 0.99869704
6 0 8 0.30864607 0.9306525 0.75573592 0.05194417
把该变量添加到环境变量中,这样后面使用其中的字段就可以直接写了:
attach(ctr_data)
最重要的一步,根据数据生成逻辑回归模型:
ctr_logr = glm(cbind(V1,V2)~V3+V4+V5+V6,family=binomial(link="logit"))
其中$y$~$x {1}+x {2}$的意思是根据$x {1}$、$x {2}$来预测y出现的概率。
我们新创建一个数据集,对其出现的概率(即V1所代表的含义)进行预测:
record = data.frame(V3=0.294181968932,V4=0.508158622733,V5=0.182334278695,V6=0.629420618229)
d <- predict(ctr_logr, newdata = record, type = "response")
1
0.004845833
可以清楚地看到,该特征向量(即一个广告)被点击的概率是0.00484,也就是说大约展示250次可能会被点击一次。
❹ 用逻辑回归预测ctr能达到什么效果
逻辑回归可以用在CTR(Click Through Rate)预估上,即通常所说的点击率预估。点击率预估的意义在于,搜索引擎等广告平台想要赚更多的钱,就要通过某一种机制让赚钱最多的广告排在前面(或有更多的概率被展示)。
一、排序规则
为了获得更多的收益,一般搜索引擎、广告联盟的排序规则是:
其中$bidPrice$是指广告主给出的竞拍价格,$CTR$就是我们预估的该广告的点击率,总体结果越高越容易被展示。
当然,这个最终的分数计算还有其他的规则,这里只是列出具CTR预估在这里的重要作用。
二、逻辑回归
我们依然使用之前在逻辑回归中用到的$sigmoid$函数作为模型:
含义为,我们给出一个查询Q和一个广告,预测其被点击(y=1)的概率。
我们的特征数据包括:广告质量得分、广告创意得分、Query与广告的相关性、相对价格、相对成交量等等,具体这些特征的值如何获得又是另外的课题,这里暂不涉及。
有了特征数据,现在我们有一批数据如下图所示:
0 20 0.294181968932 0.508158622733 0.182334278695 0.629420618229
0 68 0.1867187241 0.606174671096 0.0748709302071 0.806387550943
0 18 0.62087371082 0.497772456954 0.0321750684638 0.629224616618
1 90 0.521405561387 0.476048142961 0.134707792901 0.400062294097
0 75 0.0126899618353 0.507688693623 0.377923880332 0.998697036848
0 8 0.308646073229 0.930652495254 0.755735916926 0.0519441699996
0 64 0.444668888126 0.768001428418 0.501163712702 0.418327345087
0 79 0.842532595853 0.817052919537 0.0709486928253 0.552712019723
1 32 0.410650495262 0.164977576847 0.491438436479 0.886456782492
其中第一列是正样本(被点击)的个数,第二列是负样本(展示但未点击个数)。
三、逻辑回归
关于逻辑回归的原理可以参考我之前的文章,我们会发现这里的数据与之前的不同,每一行不再是一个单独的记录,而是一组记录的统计,这种形式在实践中更容易计算,并且更节省存储空间。
四、R逻辑回归
我们首先把数据读取到内存中,存储于ctr_data变量中:
ctr_data = read.csv('CTR_DATA.txt',header=F,sep=" ")
看一下里面的数据:
> head(ctr_data)
V1 V2 V3 V4 V5 V6
1 0 20 0.29418197 0.5081586 0.18233428 0.62942062
2 0 68 0.18671872 0.6061747 0.07487093 0.80638755
3 0 18 0.62087371 0.4977725 0.03217507 0.62922462
4 1 90 0.52140556 0.4760481 0.13470779 0.40006229
5 0 75 0.01268996 0.5076887 0.37792388 0.99869704
6 0 8 0.30864607 0.9306525 0.75573592 0.05194417
把该变量添加到环境变量中,这样后面使用其中的字段就可以直接写了:
attach(ctr_data)
最重要的一步,根据数据生成逻辑回归模型:
ctr_logr = glm(cbind(V1,V2)~V3+V4+V5+V6,family=binomial(link="logit"))
其中$y$~$x {1}+x {2}$的意思是根据$x {1}$、$x {2}$来预测y出现的概率。
我们新创建一个数据集,对其出现的概率(即V1所代表的含义)进行预测:
record = data.frame(V3=0.294181968932,V4=0.508158622733,V5=0.182334278695,V6=0.629420618229)
d <- predict(ctr_logr, newdata = record, type = "response")
1
0.004845833
可以清楚地看到,该特征向量(即一个广告)被点击的概率是0.00484,也就是说大约展示250次可能会被点击一次。
❺ 学习排序和点击率预估 有什么不同
广告的价值就在于宣传效果,点击率是其中最直接的考核方式之一,点击率越大,证明广告的潜在客户越多,价值就越大,因此才会出现了刷点击率的工具和技术.
❻ 为什么广告点击率低
广告点击率低的原因如下:
一、广告的投放位置不当
包括网站的类型,主要浏览人群(年龄段,性别,职业性质等),根据广告的性质选择对
应的人类,这样比较容易受到相应人群的关注。
二、广告的内容不新颖、不吸引人
可以做得醒目或抢眼一点,这主要是让人注意到,但是内容应该讲得平淡一点,不要夸
大其词,因为现在这种吹嘘的广告实在是多的让人讨厌。
三、网站广告信任度太低
网站广告不像电视广告,想看那个节目是强制性加进去让不看都不行,而网站广告
,觉得不可信自然就不会去关注了,当然如果只是为展示某个品牌的话,就另当别论了。
四、网站链接的网址都是主页
如果在网站看到某种东西,点进去的目的为了更加详细的了解这件东西,而这
些广告点进去几乎都是链接的主页去,别人还要花大半天的时间来找刚才的那件东西,太耗时。
❼ 信息流的计划怎么提升点击率
影响展现的因素:
预算,每条创意是否分配足够预算;
出价,智能模式出价低一般直接无显现,普通模式可逐步提高出价观察数据变化;
时段,检查是否在投放时段;
预估点击率,如果过低,广告无展现,尤其智能模式,建议上新广告,不要复制定向,过窄展现不出去,避免复选过多一级定向。
或者借助工具帮你优化管理,现在信息流这边九枝兰做的还不错
❽ 点击率预测模型一般使用哪些特征
专业技术人员职业道路的选择与职业事业发展的情况,受到个人、家庭、组织、社会等多个方面的影响。一般来说,影响专业技术员工职业生涯发展成功的因素包括下面几个方面。(一)个体基本因素
教育水平
个
体的教育水平是个体基本素质最为重要的一个指标,是赋予个体才能、塑造个体人格、促进个体综合发展的社会活动,对于专业技术人员的职业生涯发展具有非常巨
大的影响。其一,不同教育程度的个体所获得的职业生涯发展路径不同,一般来说,个体所获得的教育水平越高,其未来的发展相对来说会越好。在个体的职业双向
选择过程中,具有不同的表现,能够影响到个体职业生涯的开端和适应期是否顺畅良好,同时也关系到以后的发展晋升是否顺利有序。其二,专业技术人员所接受教
育的门类、专业和职业种类,对于其职业生涯的
发展来说会产生决定性的影响,且这种影响一般是比较持久的,会影响其职业生涯发展的前半部分甚至是整个一生的职业类别与发展。即便在这个过程中个体职业有
所转换,也往往与其所学习过的专业存在一定的关联,或是以所学习的专业知识技能为基础,而流动到其他的职业岗位上去。其三,专业技术人员所接受的不同类型
等级的正规教育、所学习的不同学科门类、所在院校的教育理念和教育方针等,都会给其带来不同的思维模式和意识,从而使得其以不同的态度和精神来对待自身职业的选择与职业生涯的发展。
2.家庭情况
个体家庭的情况也是影响其职业素质和
职业生涯发展的重要因素。个体从幼年开始就自觉不自觉地开始受到家庭潜移默化的深刻影响,这种长期积累的结果会使个体形成一整套的世界观、人生观和价值
观,这些观念又会指导其行为的模式和职业发展的活动。同时,个体还会受到家庭中各种成员的影响,从而使其学习到一定的职业知识和职业技能。这些所有的价值
观体系、行为模式、职业知识和技能,必然会从根本上影响着个体的职业理想和职业目标,影响其职业选择的方向,影响其对于职业风险的偏好、对待职业岗位的工
作态度、工作中的行为等。
(二)个体心理因素
个体能力
从心理学的角度上讲,能力一般是指个体能够顺利完成某种行为活动的心理特征和心理条件。比如,注意力、想象力、观察力、语言表达能力、分析判断能力等等都是属于基本能力的范畴;专业技术人员在实际过程中的计划、组织、协调、领导与控制等方面则属于管理能力。在人力资源管
理测评中,能力测验是最早被运用的,对于人力资源的招聘和甄选具有很好的参考价值和预测效度。一方面个体的能力或在个体相关的活动中显露出来,另一方面个
体也会在不同活动中使得自身能力得到发展和增强。任何一个个体的能力与其他个体是不同的,并表现出各自不同的特征。比如,有的专业技术人员的动手能力非常
强,但是另一些个体的学习和记忆能力则更佳,还有一些个体的社交和表达能力更好。所以,个体的能力是存在显著差别的,也会对职业生涯发展的质量产生直接影响。
2.人格特质
人
格特质主要指一个人表现出来的稳定而独特的行为方式或倾向。如善于倾听他人的意见、工作有毅力、做事谨慎小心、善于自我控制等。有些工作可能更加适合具有
某种类型性格的人来承担,而有些个体可能根据适合与具有某些人格特质的个体一起工作。比如,一个性格内向、不善于言辞和不喜欢与他人交际的个体,一般来说
应该不太适合从事市场营销或是公共关系相关的工作;如果个体性情急躁、大大咧咧,那么一般来说个体就不适合从事文字校对、整理资料等需要耐心细致认真方面
的工作。因此个体的情绪、气质和人格特质的对于其职业的适应性与工作的有效性是具有一定关联的。
3.职业适应性
职业适应性主
要从个体的需求、动机、兴趣等方面来深人考察个体与职业之间的匹配关系。它能够了解和反映个体的工作目的、职业追求和职业理想,映射出个体对工作的职业期
望,对于个体的职业选择与工作激励等方面都很有参考意义。需求是个体对生理需求、安全需求、社交需求、尊重需求以及自我实现需求等各种类型需求的具体程
度。需求是动机的基本来源,动机产生的原因就是因为个体的需求需要得到一定程度的满足。兴趣是个体力求认识某种事物或从事某种活动的心理倾向,是一种重要
的心理特征,具体表现为个体对某种事物或某项活动的有选择性的态度或相对积极的情绪反应过程。
4.其他心理特质
优秀的人格体
制和职业适应性还需要在工作的正确态度、良好的情绪、坚强的意志等方面的作用下才能够更好地发挥作用。良好的个体心理品质不仅对个体的成长和成功具有不可
忽视的重要作用,而且往往比能力因素、个性人格因素的影响要更大。比如,进取心、自信心、不屈不挠、乐观、持之以恒、谦虚谨慎等因素,都是职业生涯成功的
必要素质。因而也就存在“智商不如情商,情商不如逆商”的说法。