如何更加有效的分析A/B測試結果?

A/B測試的結果出來是不確定的,轉化小組非常失望,他們本來認為這次改變可以提高營收,然而他們并不知道像營收這樣的高階指標依賴的是什么。

 

在一次試驗完成之后,我們要分析是否還有更多我們可以從試驗中學習的東西。這個過程叫試驗后分析。

 

通過分離試驗版本A的網站流量,我們可以清晰的看到某一個瀏覽器表現明顯劣于其他:IE

ab測試

來自IE的用戶轉化比其他瀏覽器平均轉化低50%以上,同時產生1/3的每次交互收入(per session value)。但原始組的表現卻不是如此。試驗版本A出現了問題,測試代碼里出現了錯誤。

 

分析顯示,在修正了這個錯誤之后,轉化率提升了13%,每次交互收入提升了19%。在修正之后試驗版本A顯著的勝出了。

 

這個案例體現了試驗后分析的好處,它讓我們撥開迷霧,防止由此導致的錯誤決策。下面我們來看一些轉化率專家如何通過試驗后分析進行正確決策。

 

我們的每個試驗版本都是獲勝版本嗎?

 

第一個問題是:“我們每個試驗版本都是獲勝版本嗎?”

 

當我們檢查A/B測試的結果,有兩種可能的情況:

試驗結果是不確定的。沒有試驗版本優于原始版本

1個或多個試驗版本統計顯著的優于原始版本
轉化率專家 Joel Harvey 描述了他的試驗后分析過程:

 

“試驗后分析”這個詞其實不準確。大量的分析發生在試驗準備階段以及貫穿于整個A/B測試流程。來自一次試驗的“試驗后”洞察是下一次試驗的“試驗前”分析。因此為了讓下一次試驗得到好的結果,最好的方法是在上一次試驗設定合適的指標。

 

因此,當你在查看某次A/B測試試驗結果時,首先你要判斷這次測試是否有優勝版本,劣勢版本或者無法確定。要確保優勝版本的確是優勝的,主要觀察幾個核心指標:統計顯著性,p-value,測試時長,樣本容量等。如果檢查過沒有問題,下一步就是將該版本展示給全量用戶,觀測轉化率的提升。

 

在我們確定優勝版本之后,將版本細分統計查看十分重要,細分包括但不局限于:

移動端 vs 非移動端

付費用戶 vs 未付費用戶

不同瀏覽器和設備

不同流量渠道

新用戶 vs 老用戶

 

運用一些分析工具,上面的細分統計是很容易做到的。對于細分之后的用戶表現分析是至關重要的:跳出率如何?退出率如何?我們是否徹底改變了某類細分用戶在漏斗中的通過流程?
Chris McCormick,PRWD 的優化負責人,描述了他的試驗后分析過程:

 

當一次試驗完成后,我們會進一步通過 GA 來分析結果。

 

對于任意一次試驗,我們在開始的時候總是會設定“主要成功指標”。這些指標是我們想通過 GA 確認的并且通過作為跟客戶交流的優先內容。當我們在整體層面了解了本次試驗的表現后,便開始更多面的挖掘是否有某種傾向性或模式表現出來,比如:不同產品組合,新用戶對老用戶, PC 對 mobile ,等等。

 

在每次試驗時,我們總是會嘗試做一個粗略的 ROI 出來。大多數時候,我會通過分析前12個月的數據,再根據本次試驗的提升得到這個 ROI 。對于用戶來說就是一個大致估計:比如大約50k歐元的 ROI 。之所以是大致估計是因為對于一個試驗來說,有太多的因素影響,我們不可能做到100%精確。試驗不應該被當成一門精確的科學。

我們是否在犯第一類錯誤或第二類錯誤?

 

為了避免做決策時候犯錯,我們應該更細致的分析試驗結果。

 

通過確保樣本數量足夠,使用合適的A/B測試框架,我們可以盡量避免錯誤。Peep Laja 描述了他的判斷:

 

首先我會檢查是否有足夠的樣本,足夠的樣本可以確保試驗結果無誤。然后我會去檢查A/B測試工具匯報的試驗結果是否跟分析工具吻合:轉化率,人均營收等。

 

運用分析工具,我嘗試去理解為什么試驗版本改變了用戶行為:通過觀察微轉化(購物車添加,某些頁面的訪問等)和其他的指標,比如購物車價值,每次購買數量等。

 

如果樣本數量足夠大,我會去看試驗結果在不同受眾的表現,是否試驗版本還是優于原始版本。當然受眾的確定因人而異,我關注的受眾有:新用戶/老用戶,流量來源,首次購買/反復購買。

關鍵受眾表現如何?

在試驗結果不確定時,我們需要看細分人群的表現。

 

舉個例子,我們的某次試驗結果是: Android 的用戶喜歡試驗版本,但 iOS 的用戶更喜歡原始版本。二者互相抵消導致試驗結果不確定。這種情況下,如果我們不進一步觀察就會錯過重要的信息。

 

受眾的細分可能包括以下方面:

多次訪問用戶 vs 新訪問用戶

Chrome 瀏覽器 vs Safari vs IE

自然流量 vs 付費流量 vs 推薦流量

Email 流量 vs 社交媒體流量

主要產品購買 vs 非主要產品購買

主頁訪問 vs 內部訪問

 

對于不同的行業,這些細分是不同的。這些細分為產生新的試驗想法,甚至個性化體驗提供了機會。了解不同受眾的表現對于做好試驗分析至關重要。但是要有主次之分,關于這點,Rich Page 是這么解釋的:

 

要避免分析麻痹,即避免劃分過多的受眾或使用過多的分析工具。你可能會經常遇到矛盾的結果,但切記,相對于其他指標來說,營收總是最好的指標,否則再好的試驗結果也沒有意義。

 

不確定結果的試驗時有發生,我們不能遇到這種情況就不管不顧。這種情況是一個非常好的機會去學習和建立下一次試驗。比如,向用戶展示原始版本頁面和試驗版本頁面,收集他們為什么喜歡那個版本的意見。觀察用戶熱圖同樣能夠給你帶來好的洞察。
來自 WiderFunnel 的 Nick So 談論了他關于用戶分割及A/B測試分析的看法:

 

除了一般的點通率、漏斗退出、轉化率,其他的指標設定依賴于網站用戶的特定業務環境。

 

對于做了很多郵件營銷并且有很高用戶復購的電子商務網站,我會關注流量區分:新用戶和老用戶。關注于某個用戶分類的特征表現,你能夠得到極大的提升。

 

有時處于個人喜好,我會關注那些看起來隨機的指標,看能不能發現什么意想不到的特征。但要注意不要過于深陷不停的區分用戶行為當中。

 

對于 B2B 的企業,你當然需要關注全用戶生命周期和周期價值,這樣才能決定哪個版本更好。在我的經驗里,有很多次我都看到一個試驗版本提高了用戶注冊量,但用戶轉化卻非常的低,這會極大的增加銷售成本。
Benjamin Cozon 描述了如何從用戶體驗入手,得到額外的洞察力:

 

我們必須明白測試的結束其實是更深層次分析的開始。

 

為什么這個版本得到了這樣的轉化率?為了回答這個問題,我們往往嘗試去發現哪類用戶類別對版本的變化最敏感。

 

我們得到這個答案的一個途徑是觀察數據的某些維度,這些維度可能是:

用戶種類

新用戶/老用戶

獲客渠道

著陸頁種類

 

這種方法讓我們了解到,經歷不同流程的用戶對于試驗版本的反響。這些額外的洞察幫助我們建立了非常健壯的知識庫,并且促進了我們在組織間的溝通。

試驗版本對于線索質量有何影響?

營收是判斷線索質量的最主要的指標,但只看營收總是存在一些問題,Ben Jesson 是這么描述的:

 

如果一個試驗沒有達到顯著性,我們會馬上關注下一個想法的測試。對于小眾受眾長久測試,并不會帶來很大的收益,反而會增加復雜性。

 

對于優勝版本,如果能夠做頁面調查,那是無價的財富。這些調查能幫助你認清未來提升的機會。

 

線索質量很重要,我們從兩個方面解決線索質量問題。一方面,定性分析:試驗版本是否能從某個層面降低或提升線索質量?另一方面,定量分析:我們如何從數據角度判斷線索質量?

 

你也許覺得衡量收入比衡量訂單數更好。然而,從統計學角度來看,其實不然。一些隨機的大的訂單會極大的改變收入圖標。一些人建議手工提出異常點,但如何定義異常點?為什么我們不關注他們?這些都是問題。如果試驗版本并沒有做影響訂單量的改變,那么你就可以僅設置轉化率為你的指標。

 

在一次成功的試驗后,在數據庫里記錄下結果,按照以下分類:行業,瀏覽器種類,地理位置和轉化目標。這樣做對于項目組的價值是無盡的。

 

根據時間和地理位置分析A/B測試結果

 

轉化質量是重要的,Theresa Baiocco 更進一步說明了這個問題:

 

對于主要目標是電話轉化的生產線索公司,僅僅優化電話數量是不夠的,必須要同時追蹤和提升電話質量。如果你通過付費廣告來獲得這些電話,你需要考慮如何精打細算的獲得高質量的電話,可以從以下受眾分析:

每天廣告展示小時數

每周廣告展示天數

廣告位置

地理位置等等

 

當測試電話時,你必須將電話軟件追蹤的數據與廣告獲得數據進行比較。比如,你想知道一周中的哪一天你獲得5星質量電話的成本最低,首先你從電話追蹤軟件里獲取關于5星質量電話的按天數據:

ab測試技巧

然后,檢查從廣告端獲得的數據,如 Google AdWords 獲取相同時間段內廣告成本的數據。

灰度發布

最后,只需將成本除以電話數就可以得到一周的中的每一天,獲得5星電話的成本分別是多少。

ab測試工具

對于其他細分分析,比如:每天廣告展示小時數,廣告位置,每個月廣告展示周數,地理位置等等,都可以運用類似的方法。通過這樣的額外分析,你可以將你的廣告預算精準定位到每一天,每一個時間段,每一個地點,通過更少的投入達到更高的通話質量。

關注意想不到的結果

結果不是憑空得出的。任何一次改變對網站都會產生一定的連鎖反應,我們很容易忽視這種效果。

 

Craig Andrews 說明了他對于這種現象的看法:

 

在跟客戶的交流中,我發現了一些異常現象,我也差點錯過因為它只是活動的一個次級效果。只關注轉化率的一個缺陷就是,無法衡量其他相關效應。

 

比如,我確信彈框可以提升轉化,但是成本如何?對于未來用戶對品牌的認知有什么影響?大多數人都希望建立品牌信任感。

 

我們幫客戶發布了一個可下載內容,在這個過程中,我們最大的挑戰就是說服用戶使用更簡潔的詞匯、語句。用戶擔心改變他們以往的風格會造成用戶的信任感流失。這個新內容最終大獲成功,它比其他版本提升了28%的下載量。

 

但隨后,我發現了一些其他現象。

 

下載量排名第2和第3的內容的轉化率竟然也提升了很多,我們沒有對他們做任何改變,只是改變了第一個版本的效果。

 

新設計的內容提升了在用戶心中的品牌價值,從而連鎖反應的提升了其他內容的轉化。
測試結果同樣可以拿來跟歷史試驗結果比較, Shanelle Mullin 說明了這個情形:

 

存檔你已有的試驗結果有兩個好處。第一,你有一個清晰的試驗表現記錄,這對于和客戶以及相關人員交流至關重要。第二,你可以用歷史獲得的經驗發現更好的測試想法。

 

對于相關人員和用戶,如果你能更清晰的表明試驗項目的 ROI ,那么你就可能獲得更多的預算和信任。

 

重要的是你存檔什么信息。存檔的試驗信息應該包括:試驗日期,試驗受眾 URL,試驗截圖,試驗假設,試驗結果,影響因素分析,試驗鏈接,試驗結果鏈接以及試驗洞察。

 

為什么我們獲得了這樣的結果?

最后,我們需要回答這樣一個問題,為什么這個版本勝出了?它告訴了我們哪些關于用戶的信息?

 

回答這兩個問題需要群策群力以及多加思考。這個過程有兩個結果:

# 能夠產生新試驗的假設

# 讓我們根據新的信息重新排列試驗優先級

 

我們的目標是從試驗中學習,多問為什么正是加強這個過程的最好方法。

 

本文由 Luke @ 吆喝科技編譯自:http://conversionsciences.com/blog/ab-test-analysis/

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

 

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

5250 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 好运来腾讯分分彩app 旭彩一分快三 香港3肖6码默认版块 春秋彩票是骗局 彩票代购合法吗 中国足球彩票 北京pk10手机计划软件 pk10五码技巧公式 北京pk10计划免费软件 ag动物狂欢赌博