《8-3 科學 AB 實驗驅動理性增長.pdf》由會員分享,可在線閱讀,更多相關《8-3 科學 AB 實驗驅動理性增長.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、AB實驗驅動理性增長 劉玉鳳 Tencent 數據科學家|01為什么要做AB實驗 02AB實驗的關鍵問題 03AB實驗如何落地 04AB實驗的應用案例 目錄 CONTENT|01為什么要做AB實驗AB實驗能做到什么程度極致的細致極致的細致 測試了測試了4141種不同的藍色后,谷歌種不同的藍色后,谷歌把搜索框廣告鏈接定為把搜索框廣告鏈接定為指標表現指標表現最好的那種藍色,而選用這種藍最好的那種藍色,而選用這種藍色要比其他藍色每年多為色要比其他藍色每年多為GoogleGoogle帶來帶來2 2億美元億美元的利潤的利潤簡單的通過標題合并為一個長標簡單的通過標題合并為一個長標題,題,BingBing的
2、收入增長了驚人的的收入增長了驚人的12%12%。在沒有嚴重損害關鍵用戶體驗指在沒有嚴重損害關鍵用戶體驗指標的情況下,當時僅在美國就轉標的情況下,當時僅在美國就轉化為每年超過化為每年超過1 1億美元億美元的收入增加的收入增加意向不到的收益意向不到的收益 每10毫秒(眨眼速度的1/30)的性能改進就足以支付工程師全年的成本。隨著Bing性能的提高,就有人質疑性能提高是否還有價值。Bing的團隊進行了后續研究,關鍵用戶指標仍有顯著提高。每一毫秒的性能提升都比過去更有價值;每四毫秒的改進可以支付一位工程師一年的工資。多個公司都進行了性能實驗,結果都表明性能非常關鍵。在亞馬遜,100毫秒的減速實驗使銷售
3、額下降了1%。Bing和Google的發言人在2009年聯合發表的一篇演講顯示了性能對關鍵指標的顯著影響,這些關鍵指標包括不同的查詢、收益、點擊、滿意度和點擊時間。研發性能也能影響研發性能也能影響體驗體驗對于產品來說不僅僅業務指標重要,產對于產品來說不僅僅業務指標重要,產品性能也很重要。品性能也很重要。BingBing的一名工程師改變的一名工程師改變了了JavaScriptJavaScript的生成方式,大大縮短了發的生成方式,大大縮短了發送給客戶端的送給客戶端的HTMLHTML,從而提高了性能。,從而提高了性能。A/BA/B實驗顯示了驚人的指標改進。他們做了一實驗顯示了驚人的指標改進。他們做
4、了一個跟蹤實驗以評估對服務器性能的影響,個跟蹤實驗以評估對服務器性能的影響,結果表明,性能改進還顯著提高了關鍵用結果表明,性能改進還顯著提高了關鍵用戶指標,如成功率和成功時間戶指標,如成功率和成功時間硅谷的AB實驗發展情況微軟:(2萬億$)10000+個/天Facebook:(0.5萬億$)10000+個/天 Airbnb:(0.06萬億$)1000+個/天 國內的AB實驗發展情況行業領先行業領先建設階段探索階段 BAT、滴滴、字節、代表企業代表企業發展情況發展情況 銀行:建行銀行:建行、招商 車企:一汽大眾、游戲沒有認知 其他企業 大型、腰部互聯網公司 不知道怎么做AB實驗,正在把AB平臺建
5、起來,還不具備成熟的評估實驗結果的能力 已經在做AB實驗效率提升,用AB測試控制成本,實現技術和流程的降本增效 正在意識到做AB的重要性,關注如何開展AB,但目前尚未形成直接效果,正在上應用平臺 還未意識到AB實驗的的意義,或業務體量不支持實施AB實驗“一個代差的時間大約是5年左右”AB實驗的前世今生2000年,Google工程師將這一方法應用在互聯網產品測試中,此后A/B實驗變得越來越重要,逐漸成為互聯網產品運營迭代科學化、數據驅動增長的重要手段。從國外的Apple、Airbnb、Amazon、Facebook、Google、LinkedIn、Microsoft、Uber等公司,到國內的百度
6、、阿里、騰訊、滴滴、字節跳動、美團等公司,在各種終端(網站、PC應用程序、移動應用程序、電子郵件等)上運行著大量的AB實驗。實驗組測試方案對照組對照方案隨機分組統計檢驗有效有效A/B測試(A/B實驗)又稱為受控實驗(Controlled Experiment)或者對照實驗。A/B實驗的概念來自生物醫學的雙盲測試,雙盲測試中病人被隨機分成兩組,在不知情的情況下分別給予安慰劑和測試用藥,經過一段時間的實驗后,比較這兩組病人的表現是否具有顯著差異,從而確定測試用藥是否有效。AB實驗的核心價值實踐數據驅動,精細成本收益0102 定性因果驗證因果關系,確保方向正確錯誤的分析結論導致錯誤的決策:相關-因果
7、幾乎是判斷因果關系的唯一手段!定量增長無法量化就無法管理:人治-數治可以精確到業務需要的程度0.01、0.001.因果性和相關性不可解釋的相關性無法直接干預結果要找到真正影響結果的因素CausationCausal mechanism Stable and RobustConfoundingIgnoring XSpurious CorrelationSample SelectionConditional on SSpurious Correlation 三種相關性來源:AB實驗的核心優勢 并行性:同一個實驗對象并行性:同一個實驗對象可以有多個實驗并行開展可以有多個實驗并行開展2先驗性:先驗性:
8、小流量預先獲得效果評估小流量預先獲得效果評估用過去判斷未來v.s.用未來判斷未來:對于敏捷開發的產品需要快速試錯,采用全員試錯的方式造成大量成本浪費1短期內獲得大量策略的用戶結果,節省實驗流量和時間,提升產品迭代效率AB實驗應用場景 IdeaIdea toto AppApp IterationIteration產品的迭代產品的迭代 產品功能迭代升級產品功能迭代升級 視覺、交互體驗優化視覺、交互體驗優化 產品版本灰度發布產品版本灰度發布活動運營活動運營 活動頁面轉化提升活動頁面轉化提升 運營推廣效率提速運營推廣效率提速 活動方案活動方案ROIROI對比對比策略算法優化策略算法優化 搜索優化搜索優
9、化 商品推薦商品推薦 內容推薦內容推薦市場營銷市場營銷 廣告投放轉化提升廣告投放轉化提升 營銷策略選擇營銷策略選擇 營銷收益評估營銷收益評估AB實驗對企業的價值 持續/快速/規?;腁B實驗運用,是企業產品與服務體驗自我進化的有效路徑n在每次實驗中,發現有效的“小提升”,或者發現“壞策略”n不斷大量實驗,摒棄不對的方向,積累每一次微小提升,量變形成質變n在企業全線業務場景下推行AB實驗機制,形成有效的自我進化的企業文化“AB實驗讓我們更快地失敗,從而讓我們也成功得更快(AB Testing makses us fail faster so that we can win faster)?!?M
10、ark Pincus Zynga CEO,2015“每天提升1%,一年365天,1.01的365次方等于37.78,是驚人的變化“清晰地知道哪些方向是對的,行動會越來越快速,結果越來越好,形成正反饋“基于AB實驗的迭代非AB實驗的迭代|02AB實驗的關鍵問題AB實驗關鍵問題矩陣AB實驗中統計學知識關鍵詞:隨機抽樣、關鍵詞:隨機抽樣、置信區間、置信區間、方差估計、置信水平、樣本容量、方差估計、置信水平、樣本容量、顯著性水平顯著性水平、P P值、值、假設檢驗、假設檢驗、功效、一類錯誤、二類錯誤功效、一類錯誤、二類錯誤AB實驗的統計學知識 有4個同學,小明、小軍、小蘭和小美,抽簽決定放學后誰留下來掃
11、地,盒子里面有4張紙條:3張白紙,1張寫著“掃地”。每個人抽完簽如果沒有抽中,再把簽放回盒子中。1)作出原假設H0:小明沒作弊;其備擇假設H1:小明作弊了。2)基于小明沒有作弊的假設H0,構造小概率事件小明沒有抽中的概率如下。l P(小明抽1次沒有抽中)=3/4=0.75l P(小明抽3次沒有抽中)=3/43/43/4=0.42l P(小明抽12次沒有抽中)=3/43/43/4=0.032小明抽12次都沒有抽中的概率是3.2%,是一個小概率事件,如果真實發生了,那我們就可以拒絕H0,接受H1,認為小明是作弊了?,F實生活中也不難理解,一個人抽了12次都沒有抽中,這肯定不符合常理,作弊的可能性更大
12、。當然也不排除小明確實運氣太好了,抽了12次都沒有抽到,而這樣的好運氣發生的概率是非常小的?!癙“P值值 顯著性水平顯著性水平,表明實驗的差異是顯著表明實驗的差異是顯著”顯著性水平是人為定義的,用以判斷是否為小概率事件的閾值,如果低于該閾值則認為是小概率事件。在H0假設下,如果小概率事件發生了的話,就可以拒絕原假設H0顯著性顯著性水平水平 P P值值 H0為真時,小概率事件發生的概率。根據實際數據計算出來的值。AB實驗的統計學知識顯著性水平顯著性水平 顯著性水平是人為定義的,用以判斷是否為小概率事件的閾值,如果低于該閾值則認為是小概率事件。在H0假設下,如果小概率事件發生了的話,就可以拒絕原假
13、設H0P P值值 H0為真時,小概率事件發生的概率。根據實際數據計算出來的值。小明抽12次都沒有抽中的概率是3.2%我們認為一個小于5%發生的概率的事件就是一個小概率時間連線游戲AB實驗的統計學知識實際實際 小明沒作弊小明沒作弊小明作弊小明作弊判斷判斷小明沒作弊小明沒作弊決策正確第二類錯誤小明作弊小明作弊第一類錯誤決策正確實際情況實際情況 H0H0成立成立(沒效果)沒效果)H0H0不成立不成立(效果)效果)判斷判斷接受接受H0H0決策正確第二類錯誤 拒絕拒絕H0H0第一類錯誤決策正確第一類錯誤:第一類錯誤:沒有效果被判斷為有效果的錯誤,用顯著性水平來控制第二類錯誤:第二類錯誤:有效果但是被判斷
14、為沒效果的錯誤,用功效(power)來控制。功效=1-第二類錯誤發生的概率,即power越大,第二類錯誤概率越小。power越大的同時,第三類錯誤發生的概率也越小,基本會趨近于0。第三類錯誤:第三類錯誤:就是實驗組和對照組有差異,系統也檢測出來了,但是差異的方向反了。思考:哪一類錯誤是我們需要重點控制的?思考:哪一類錯誤是我們需要重點控制的?AB實驗的統計學知識如果P值顯著性水平,不能拒絕原假設H0,但是也不能接受H1。此時不能說策略有效,但是也不能說明策略無效。需要進一步觀察power,如果power80%(一般選擇80%),說明犯第二類錯誤的概率也很低了,即策略有效被判斷為無效的概率很低,
15、此時策略大概率就是無效了。如果power80%,此時有效被判斷為無效的概率還是比較大的,策略有可能是真的沒效果,那么怎么辦呢?這就需要我們繼承觀察實驗,直到值或者power達到可以判斷的時候。|03AB實驗如何落地基于AB實驗的精益決策增長體系實驗平臺實驗平臺增長評估增長評估方案策劃方案策劃依托實現依托實現分析數據分析數據設計實驗設計實驗數數據據驅驅動動的的敏敏捷捷產產品品增增長長迭迭代代提出假設提出假設運行實驗運行實驗分析實驗分析實驗目標是什目標是什么么增長了嗎增長了嗎增長了多增長了多少少增長良性增長良性嗎嗎為什么沒為什么沒有增長有增長數數據據驅驅動動的的產產品品增增長長分分析析實驗管理實驗
16、管理分流管理分流管理指標管理指標管理分析決策分析決策終極目標終極目標核心框架核心框架高效高效規范規范科學科學 數據驅動增長體系數據驅動增長體系提高提高效率效率功能功能承載承載 實驗沉淀實驗沉淀實驗平臺實驗平臺實驗分析實驗分析方案策劃方案策劃數據支持數據支持AB實驗平臺購買 沒有經驗、技術和人才儲備(騰訊、字節、神策、熱云.)自建 需求度非常高,內部環境業務復雜度高 無AB測試個別部門啟動AB實驗多個部門啟動A/B測試統一中臺化改造專項Oteam成立統一AB實驗中臺信息視頻音樂.統一的用戶分流機制統一的用戶分流機制統一的目標體系統一的目標體系統一的評估口徑統一的評估口徑 統一的實驗管理統一的實驗
17、管理提升數據應用效率提升數據應用效率極大降低了實驗門檻極大降低了實驗門檻提升數據共享與一致性提升數據共享與一致性提升各業務營銷效果提升各業務營銷效果AB測試能力中臺化的收益各個業務線獨立建 各個業務差異很大 中臺共建 (D),AC分析關鍵點:分析關鍵點:AB實驗數據支持01020304指標體系指標體系 數據采集數據采集 計算口徑計算口徑 數據監控數據監控 AB實驗方案阻礙因素LIFTLIFT模型模型AB實驗能告訴你哪條路是最快達到,哪條路體驗好,但是無法幫助你設計出一條全新的路。12(“直播+輔導,學習更有效”)(“一次注冊,讓孩子一生與眾不同”)哪個相關性更高?某教育網站發現廣告落地頁 哪個
18、更吸引人?小測試:新用戶15月,連續包月,續費30元新用戶首月5折,到期自動續費,隨時可取消,某產品包月會員購買頁推動因素專業團隊是非常必要的決策層Buy in提供政策、激勵、資源專業團隊支持(科學家、實驗專家參與實驗,并提供培訓)全面提升團隊實驗專業性(培訓培養團隊中的優秀實驗者)擴大實驗的參與面(讓所有的團隊相關成員參與到實驗的分析、評估中)通過定期的case study,實驗期刊等方式,宣傳實驗成果,擴大實驗影響通過為實驗過程中優秀的推動者、培訓人員、參與者提供相應的激勵和特權將實驗嵌入產品發布流程、填寫實驗審查單、實驗平臺自動放量等機制加速實驗的應用和規范性擴大影響提供激勵深度結合必須
19、必須|04AB實驗的實踐案例ToB實踐:實驗方案設計思考題低效線索多,跟進成本高低效線索多,跟進成本高:虛擬號、黑產、外省等無效、低效線索浪費人力成本、線索資源高價值線索無法及時轉化高價值線索無法及時轉化:大量新線索中無法有效判斷高價值線索,無法及時跟進,會降低高價值線索的到店和轉化率外呼溝通效率低外呼溝通效率低:無法判斷客戶意向,溝通無重點、后續跟進計劃和策略無可靠的依據業務背景業務背景線索智能評級引擎線索智能評級引擎對線索打分對線索打分優先外呼跟進高分線索優先外呼跟進高分線索提升到店和轉化率提升到店和轉化率輸出線索評級輸出線索評級5 5分分4 4分分3 3分分2 2分分1 1分分高意愿高意
20、愿低意愿低意愿AB測試方案如何設計?ToB實踐:實驗方案設計思考題ToC實踐:通過增加視頻規格廣告的供應提升廣告收入業務背景業務背景騰訊新聞面對較大的廣告收入壓力,同時又不希望通過簡單地增加廣告位置、廣告密度的方式來增加收入,因為這些方式會傷害用戶體驗,引起用戶的卸載和流失,帶來更嚴重的長期損害。必須要找到更好的方式,既不傷害用戶又能提升收入。解決方案解決方案在廣告中,一般視頻規格價格更高。目前在評論頁中的廣告僅支持大圖規格,是否可以通過增加視頻規格的供應來提升廣告收入,同時又不影響用戶側的體驗呢?這需要設計AB實驗進行驗證。項目收益項目收益曝光量基本不變(即未增加廣告位置和廣告密度)的情況下
21、,視頻規格更貴,廣告收入(消耗、ecpm)增加了22%同時,視頻的效果好,廣告總點擊量和點擊率增長約225%對客戶來說,轉化提升,cpc降低了63%該項優化使年收入增長7300萬大圖規格視頻規格ToC實踐:通過調整推送流量分配提升用戶活躍業務背景業務背景騰訊新聞會對全體用戶根據當天的新聞熱點或用戶感興趣的內容進行對應的push推送。其中針對OPPO用戶,騰訊新聞的push下發策略為全體用戶(不區分活躍與否)按照上午3條、下午2條、晚上X條(X為剩余額度)的規則進行推送。業務想要尋找一種新的push策略,可以達到提升產品DAU的目的。解決方案解決方案通過修改OPPO用戶的推送方案,使其push策
22、略從均勻分配推送額度改為向當日未活躍用戶傾斜,具體體現為當日已活躍OPPO用戶,活躍之后的push不再使用廠商配額,直接走自有通道下發push。通過AB測試,比較該策略的采用是否會帶來產品DAU的提升。項目收益項目收益用戶活躍提升,大盤DAU增長0.27%OPPO整體PUSH到達UV,基本持平,減少0.03%OPPO的push點擊UV減少4.65%push推送騰訊新聞是一款快速、客觀、公正地提供新聞資訊的中文免費應用程序,憑借優異的用戶體驗引發用戶大量下載。它是騰訊團隊用心打造的一款豐富、及時的新聞應用,本著精煉、輕便的目標,為用戶提供高效、優質的閱讀體驗。大盤大盤 DAU OPPO click uvOPPO 到達到達 UV實驗vs對照+0.27%-4.65%-0.03%非常感謝您的觀看Tencent|