❶ 為什麼要預估點擊率麻煩告訴我
2) 廣告按點擊收費 (Charge per Click, CPC), 下面我們會分別討論一價計費 (First-Price, FP, 即廣告出價多少則一次點擊計費多少) 和二價計費 (Second-Price, SP, 即廣告按下一位出價來支付點擊價格, 更普遍的是 GSP)
3) 千次展現收費 (Cost Per Mille, CPM, 或 RPM, R for Revenue), 即對點擊付費廣告其展示一千次情況下的收入 (一價計費下等價於 1000*CTR*Bid), 或是展示廣告的千次展現固定價格
4) 預估點擊率 (predict CTR, pCTR) 是指對某個廣告將要在某個情形下展現前, 系統預估其可能的點擊概率目標分類搜索廣告跟自然結果一個很大的區別就是自然結果只要有一點相關就應該放到所有結果里去, 至於先後位置那個再說, 而廣告, 是有個相關性的准入門檻的, 不相關的廣告出價再高, 丟出來還是會被罵死. 那怎麼判斷相關? 用戶會用滑鼠點擊來對結果投票, 相關的廣告會被點擊, 不相關的廣告不會被點擊, 那很自然就能得出 "點擊率和相關性正相關" 這個結論 (至於描述里寫 "二十五歲以下免進" 但實際是鋼材廣告的這種誘騙行為後面再說怎麼處理). 那對於這種相關性准入的場景, 預估點擊率就是預估廣告是否相關, 最樸素情況下這是個二分類問題, 那不管預估成怎樣, 只要有一種分割方法能分開是否相關就行了. 此時預估點擊率的目標是能對廣告按相關與否分類 (或說按相關性排序並給出一個截斷值). 評估分類問題好壞, 一般都是看準確和召回兩個指標, 用人工打分的記錄來做回歸驗證就行目標排序判斷相關與否只是點擊率預估對廣告的一個小輔助, 我們來看看廣告的目標是什麼? 沒錯, 是賺錢. (我曾經在其他場合說過廣告的目標是維持用戶體驗下持續賺錢, 不過跟賺錢這一簡化目標這不沖突, 前面相關性上已經保證了維持用戶體驗, 那隻要能讓廣告主還有的賺, 就能持續賺錢) 我們再把問題簡化下, 如果廣告都是一樣的固定價格, 且就以這個價格按點擊計費, 那在 PV 一定且預算充分的情況下, 更高的點擊率則意味著更賺錢. 這樣目標可以等價於怎麼挑出更賺錢的廣告, 就是那些點擊率最高的廣告, 我們只要能弄明白廣告實際點擊率的高低關系就能取得收益最大化, 預估點擊率在這時候又是個排序問題, 我們只要弄對廣告之間的序關系, 就可以收益最大. 評估排序問題的好壞, 一個經典方法是對 pCTR 的 ROC 曲線算 AUC (曲線下面積), 實際上我見過的做法也都是通過評估 AUC 的高低來判斷點擊率預估模型的好壞
目標帶權排序
上一段里對廣告這個業務做了很多簡化, 比如大家價格都是一樣的, 如果我們考慮價格不一樣的情況, 那預期收益就會變成 (價格Bid*點擊率CTR), 這個值很多地方也叫 CPM 或 RPM. 如果是對 CPM 排序, 那就需要我們預估的點擊率在維持序關系正確的前提下, 還要保證相互之間的縮放比是一樣的. 比如有廣告 A, B, C, 實際點擊率是 5%, 3%, 1%, 那在價格一致的情況下, 我預估成 5-3-1 還是 5-4-3 是沒關系的, 但在價格不一樣的情況下, 比如 1, 1.5, 3, 這時候 5-4-3 的預估點擊率值會讓他們的預估排名和實際排名剛好顛倒過來, 不過預估 5-3-1 或 10-6-2 (放大一倍) 倒沒關系. 為了評估這個結果, 可以在描 ROC 曲線時把價格乘上去, 那最後還是判斷排序問題的好壞, 加了價格的 AUC 我們可以叫 wAUC (weighted-AUC), 這個離線評估和在線效果依然可以對等目標准確從准確召回到 AUC 再到 wAUC, 看起來對已有問題可以完美解決了?
但是, 凡事怕但是, 在搜索廣告里, 不同的展現位置對點擊率還有影響, 比如廣告 A, B 在第一位點擊率是 5%, 3%, 而在第二位是 3%, 2%, 那隻是同比縮放就很難保證最終比較是一致的問題了, 所以最好還是保證預估值跟實際值盡可能接近的好, 這樣才能在預估時獲得更實際用時完全一樣的場景. 評估准確度, 我們有 MAE 和 MSE 等一堆指標, 也是現成的工作的比較好的東西擴展和吐槽有行家可能會吐槽說我剛那個不同廣告在不同位置的衰減不一致這個說法, 跟公開論文說的不一樣, Yahoo 的 paper 里說不同廣告在同位置的衰減是一樣的. 我只能說, 騷年, 你太天真了... 衰減因子怎麼可能只是 f(pos) 這樣一個簡單函數, 從實際情況來看, 衰減函數和廣告是有關的, 但我們又不能對每個廣告都去估一個 f(pos, ad), 好在, 我們發現可以把不同的廣告做聚類後得到一個 f(pos, type) 的函數簇, 事實上, 最後的衰減函數不僅僅有 pos 和 type 兩個因子, 而且裡面的因子可以極度簡化, 最後的衰減用簡單函數就能很好擬合, 我說的夠多了, 再說估計要被前東家找麻煩, 你們來感受一下就好
❷ 計算廣告 點擊率預估用到的特徵工程 有哪些特徵
白雪歌送武判官歸京(岑參)
❸ 展現廣告點擊率ctr預估 冷啟動怎麼解決
邏輯回歸可以用在CTR(Click Through Rate)預估上,即通常所說的點擊率預估。點擊率預估的意義在於,搜索引擎等廣告平台想要賺更多的錢,就要通過某一種機制讓賺錢最多的廣告排在前面(或有更多的概率被展示)。
一、排序規則
為了獲得更多的收益,一般搜索引擎、廣告聯盟的排序規則是:
其中$bidPrice$是指廣告主給出的競拍價格,$CTR$就是我們預估的該廣告的點擊率,總體結果越高越容易被展示。
當然,這個最終的分數計算還有其他的規則,這里只是列出具CTR預估在這里的重要作用。
二、邏輯回歸
我們依然使用之前在邏輯回歸中用到的$sigmoid$函數作為模型:
含義為,我們給出一個查詢Q和一個廣告,預測其被點擊(y=1)的概率。
我們的特徵數據包括:廣告質量得分、廣告創意得分、Query與廣告的相關性、相對價格、相對成交量等等,具體這些特徵的值如何獲得又是另外的課題,這里暫不涉及。
有了特徵數據,現在我們有一批數據如下圖所示:
0 20 0.294181968932 0.508158622733 0.182334278695 0.629420618229
0 68 0.1867187241 0.606174671096 0.0748709302071 0.806387550943
0 18 0.62087371082 0.497772456954 0.0321750684638 0.629224616618
1 90 0.521405561387 0.476048142961 0.134707792901 0.400062294097
0 75 0.0126899618353 0.507688693623 0.377923880332 0.998697036848
0 8 0.308646073229 0.930652495254 0.755735916926 0.0519441699996
0 64 0.444668888126 0.768001428418 0.501163712702 0.418327345087
0 79 0.842532595853 0.817052919537 0.0709486928253 0.552712019723
1 32 0.410650495262 0.164977576847 0.491438436479 0.886456782492
其中第一列是正樣本(被點擊)的個數,第二列是負樣本(展示但未點擊個數)。
三、邏輯回歸
關於邏輯回歸的原理可以參考我之前的文章,我們會發現這里的數據與之前的不同,每一行不再是一個單獨的記錄,而是一組記錄的統計,這種形式在實踐中更容易計算,並且更節省存儲空間。
四、R邏輯回歸
我們首先把數據讀取到內存中,存儲於ctr_data變數中:
ctr_data = read.csv('CTR_DATA.txt',header=F,sep=" ")
看一下裡面的數據:
> head(ctr_data)
V1 V2 V3 V4 V5 V6
1 0 20 0.29418197 0.5081586 0.18233428 0.62942062
2 0 68 0.18671872 0.6061747 0.07487093 0.80638755
3 0 18 0.62087371 0.4977725 0.03217507 0.62922462
4 1 90 0.52140556 0.4760481 0.13470779 0.40006229
5 0 75 0.01268996 0.5076887 0.37792388 0.99869704
6 0 8 0.30864607 0.9306525 0.75573592 0.05194417
把該變數添加到環境變數中,這樣後面使用其中的欄位就可以直接寫了:
attach(ctr_data)
最重要的一步,根據數據生成邏輯回歸模型:
ctr_logr = glm(cbind(V1,V2)~V3+V4+V5+V6,family=binomial(link="logit"))
其中$y$~$x {1}+x {2}$的意思是根據$x {1}$、$x {2}$來預測y出現的概率。
我們新創建一個數據集,對其出現的概率(即V1所代表的含義)進行預測:
record = data.frame(V3=0.294181968932,V4=0.508158622733,V5=0.182334278695,V6=0.629420618229)
d <- predict(ctr_logr, newdata = record, type = "response")
1
0.004845833
可以清楚地看到,該特徵向量(即一個廣告)被點擊的概率是0.00484,也就是說大約展示250次可能會被點擊一次。
❹ 用邏輯回歸預測ctr能達到什麼效果
邏輯回歸可以用在CTR(Click Through Rate)預估上,即通常所說的點擊率預估。點擊率預估的意義在於,搜索引擎等廣告平台想要賺更多的錢,就要通過某一種機制讓賺錢最多的廣告排在前面(或有更多的概率被展示)。
一、排序規則
為了獲得更多的收益,一般搜索引擎、廣告聯盟的排序規則是:
其中$bidPrice$是指廣告主給出的競拍價格,$CTR$就是我們預估的該廣告的點擊率,總體結果越高越容易被展示。
當然,這個最終的分數計算還有其他的規則,這里只是列出具CTR預估在這里的重要作用。
二、邏輯回歸
我們依然使用之前在邏輯回歸中用到的$sigmoid$函數作為模型:
含義為,我們給出一個查詢Q和一個廣告,預測其被點擊(y=1)的概率。
我們的特徵數據包括:廣告質量得分、廣告創意得分、Query與廣告的相關性、相對價格、相對成交量等等,具體這些特徵的值如何獲得又是另外的課題,這里暫不涉及。
有了特徵數據,現在我們有一批數據如下圖所示:
0 20 0.294181968932 0.508158622733 0.182334278695 0.629420618229
0 68 0.1867187241 0.606174671096 0.0748709302071 0.806387550943
0 18 0.62087371082 0.497772456954 0.0321750684638 0.629224616618
1 90 0.521405561387 0.476048142961 0.134707792901 0.400062294097
0 75 0.0126899618353 0.507688693623 0.377923880332 0.998697036848
0 8 0.308646073229 0.930652495254 0.755735916926 0.0519441699996
0 64 0.444668888126 0.768001428418 0.501163712702 0.418327345087
0 79 0.842532595853 0.817052919537 0.0709486928253 0.552712019723
1 32 0.410650495262 0.164977576847 0.491438436479 0.886456782492
其中第一列是正樣本(被點擊)的個數,第二列是負樣本(展示但未點擊個數)。
三、邏輯回歸
關於邏輯回歸的原理可以參考我之前的文章,我們會發現這里的數據與之前的不同,每一行不再是一個單獨的記錄,而是一組記錄的統計,這種形式在實踐中更容易計算,並且更節省存儲空間。
四、R邏輯回歸
我們首先把數據讀取到內存中,存儲於ctr_data變數中:
ctr_data = read.csv('CTR_DATA.txt',header=F,sep=" ")
看一下裡面的數據:
> head(ctr_data)
V1 V2 V3 V4 V5 V6
1 0 20 0.29418197 0.5081586 0.18233428 0.62942062
2 0 68 0.18671872 0.6061747 0.07487093 0.80638755
3 0 18 0.62087371 0.4977725 0.03217507 0.62922462
4 1 90 0.52140556 0.4760481 0.13470779 0.40006229
5 0 75 0.01268996 0.5076887 0.37792388 0.99869704
6 0 8 0.30864607 0.9306525 0.75573592 0.05194417
把該變數添加到環境變數中,這樣後面使用其中的欄位就可以直接寫了:
attach(ctr_data)
最重要的一步,根據數據生成邏輯回歸模型:
ctr_logr = glm(cbind(V1,V2)~V3+V4+V5+V6,family=binomial(link="logit"))
其中$y$~$x {1}+x {2}$的意思是根據$x {1}$、$x {2}$來預測y出現的概率。
我們新創建一個數據集,對其出現的概率(即V1所代表的含義)進行預測:
record = data.frame(V3=0.294181968932,V4=0.508158622733,V5=0.182334278695,V6=0.629420618229)
d <- predict(ctr_logr, newdata = record, type = "response")
1
0.004845833
可以清楚地看到,該特徵向量(即一個廣告)被點擊的概率是0.00484,也就是說大約展示250次可能會被點擊一次。
❺ 學習排序和點擊率預估 有什麼不同
廣告的價值就在於宣傳效果,點擊率是其中最直接的考核方式之一,點擊率越大,證明廣告的潛在客戶越多,價值就越大,因此才會出現了刷點擊率的工具和技術.
❻ 為什麼廣告點擊率低
廣告點擊率低的原因如下:
一、廣告的投放位置不當
包括網站的類型,主要瀏覽人群(年齡段,性別,職業性質等),根據廣告的性質選擇對
應的人類,這樣比較容易受到相應人群的關注。
二、廣告的內容不新穎、不吸引人
可以做得醒目或搶眼一點,這主要是讓人注意到,但是內容應該講得平淡一點,不要誇
大其詞,因為現在這種吹噓的廣告實在是多的讓人討厭。
三、網站廣告信任度太低
網站廣告不像電視廣告,想看那個節目是強制性加進去讓不看都不行,而網站廣告
,覺得不可信自然就不會去關注了,當然如果只是為展示某個品牌的話,就另當別論了。
四、網站鏈接的網址都是主頁
如果在網站看到某種東西,點進去的目的為了更加詳細的了解這件東西,而這
些廣告點進去幾乎都是鏈接的主頁去,別人還要花大半天的時間來找剛才的那件東西,太耗時。
❼ 信息流的計劃怎麼提升點擊率
影響展現的因素:
預算,每條創意是否分配足夠預算;
出價,智能模式出價低一般直接無顯現,普通模式可逐步提高出價觀察數據變化;
時段,檢查是否在投放時段;
預估點擊率,如果過低,廣告無展現,尤其智能模式,建議上新廣告,不要復制定向,過窄展現不出去,避免復選過多一級定向。
或者藉助工具幫你優化管理,現在信息流這邊九枝蘭做的還不錯
❽ 點擊率預測模型一般使用哪些特徵
專業技術人員職業道路的選擇與職業事業發展的情況,受到個人、家庭、組織、社會等多個方面的影響。一般來說,影響專業技術員工職業生涯發展成功的因素包括下面幾個方面。(一)個體基本因素
教育水平
個
體的教育水平是個體基本素質最為重要的一個指標,是賦予個體才能、塑造個體人格、促進個體綜合發展的社會活動,對於專業技術人員的職業生涯發展具有非常巨
大的影響。其一,不同教育程度的個體所獲得的職業生涯發展路徑不同,一般來說,個體所獲得的教育水平越高,其未來的發展相對來說會越好。在個體的職業雙向
選擇過程中,具有不同的表現,能夠影響到個體職業生涯的開端和適應期是否順暢良好,同時也關繫到以後的發展晉升是否順利有序。其二,專業技術人員所接受教
育的門類、專業和職業種類,對於其職業生涯的
發展來說會產生決定性的影響,且這種影響一般是比較持久的,會影響其職業生涯發展的前半部分甚至是整個一生的職業類別與發展。即便在這個過程中個體職業有
所轉換,也往往與其所學習過的專業存在一定的關聯,或是以所學習的專業知識技能為基礎,而流動到其他的職業崗位上去。其三,專業技術人員所接受的不同類型
等級的正規教育、所學習的不同學科門類、所在院校的教育理念和教育方針等,都會給其帶來不同的思維模式和意識,從而使得其以不同的態度和精神來對待自身職業的選擇與職業生涯的發展。
2.家庭情況
個體家庭的情況也是影響其職業素質和
職業生涯發展的重要因素。個體從幼年開始就自覺不自覺地開始受到家庭潛移默化的深刻影響,這種長期積累的結果會使個體形成一整套的世界觀、人生觀和價值
觀,這些觀念又會指導其行為的模式和職業發展的活動。同時,個體還會受到家庭中各種成員的影響,從而使其學習到一定的職業知識和職業技能。這些所有的價值
觀體系、行為模式、職業知識和技能,必然會從根本上影響著個體的職業理想和職業目標,影響其職業選擇的方向,影響其對於職業風險的偏好、對待職業崗位的工
作態度、工作中的行為等。
(二)個體心理因素
個體能力
從心理學的角度上講,能力一般是指個體能夠順利完成某種行為活動的心理特徵和心理條件。比如,注意力、想像力、觀察力、語言表達能力、分析判斷能力等等都是屬於基本能力的范疇;專業技術人員在實際過程中的計劃、組織、協調、領導與控制等方面則屬於管理能力。在人力資源管
理測評中,能力測驗是最早被運用的,對於人力資源的招聘和甄選具有很好的參考價值和預測效度。一方面個體的能力或在個體相關的活動中顯露出來,另一方面個
體也會在不同活動中使得自身能力得到發展和增強。任何一個個體的能力與其他個體是不同的,並表現出各自不同的特徵。比如,有的專業技術人員的動手能力非常
強,但是另一些個體的學習和記憶能力則更佳,還有一些個體的社交和表達能力更好。所以,個體的能力是存在顯著差別的,也會對職業生涯發展的質量產生直接影響。
2.人格特質
人
格特質主要指一個人表現出來的穩定而獨特的行為方式或傾向。如善於傾聽他人的意見、工作有毅力、做事謹慎小心、善於自我控制等。有些工作可能更加適合具有
某種類型性格的人來承擔,而有些個體可能根據適合與具有某些人格特質的個體一起工作。比如,一個性格內向、不善於言辭和不喜歡與他人交際的個體,一般來說
應該不太適合從事市場營銷或是公共關系相關的工作;如果個體性情急躁、大大咧咧,那麼一般來說個體就不適合從事文字校對、整理資料等需要耐心細致認真方面
的工作。因此個體的情緒、氣質和人格特質的對於其職業的適應性與工作的有效性是具有一定關聯的。
3.職業適應性
職業適應性主
要從個體的需求、動機、興趣等方面來深人考察個體與職業之間的匹配關系。它能夠了解和反映個體的工作目的、職業追求和職業理想,映射出個體對工作的職業期
望,對於個體的職業選擇與工作激勵等方面都很有參考意義。需求是個體對生理需求、安全需求、社交需求、尊重需求以及自我實現需求等各種類型需求的具體程
度。需求是動機的基本來源,動機產生的原因就是因為個體的需求需要得到一定程度的滿足。興趣是個體力求認識某種事物或從事某種活動的心理傾向,是一種重要
的心理特徵,具體表現為個體對某種事物或某項活動的有選擇性的態度或相對積極的情緒反應過程。
4.其他心理特質
優秀的人格體
制和職業適應性還需要在工作的正確態度、良好的情緒、堅強的意志等方面的作用下才能夠更好地發揮作用。良好的個體心理品質不僅對個體的成長和成功具有不可
忽視的重要作用,而且往往比能力因素、個性人格因素的影響要更大。比如,進取心、自信心、不屈不撓、樂觀、持之以恆、謙虛謹慎等因素,都是職業生涯成功的
必要素質。因而也就存在「智商不如情商,情商不如逆商」的說法。