A/B 測試是如何工作的

A/B測試是確定哪些營銷信息能提高轉化率(并因此可能會提高銷售和收入)的一種很好的方式。很多人可能已經用過A/B測試了,但在對測試結果的理解上可能還需要一些幫助。在這篇文章里我希望不用數學方程和技術就能給大家解釋清楚和A/B測試相關的一些數字。

 

A/B測試的結果通常以花哨的數學和統計學的方式給出,但數字背后的含義實際上相當簡單。理解核心概念是很重要的部分,讓計算器和軟件休息一下吧。

采樣和統計意義

需要討論的第一個概念是抽樣和樣本大小。確定一組測試的結果是否有用高度依賴于進行測試的次數。我們把對每個A/B測試轉化的測量稱為樣本,把收集這些測量結果的行為稱為抽樣。

ab測試原理

現在假設你擁有一家快餐店,并且你很想知道人們更喜歡薯條還是洋蔥圈。(如果你已經在做快餐生意,你可能已經知道這個銷售問題的答案了。)假設你沒有開店,并且想估計那種賣的更好,這樣你就可以提前準備預定相應的庫存了。

 

你在你位于三里屯的餐廳里進行了一個隨機調查,問人們更喜歡洋蔥圈還是炸薯條。如果你總共只問了三個人,有兩個人說他們更喜歡洋蔥圈,你會自信的認為三分之二的客戶更喜歡洋蔥圈然后按這個比例訂購庫存嗎?可能不會吧。

 

隨著你收集到更多的測量(或樣品,在這種情況下,去問更多的人)數據,統計學結果就越趨于穩定,并且越來越接近實際可能看到的結果。炸薯條和洋蔥圈的問題同樣適用于網站和營銷策略的變化。

 

目標是要確保你收集到了足夠的數據點,在數據結果的基礎上能自信地做出預測或改變。要計算試驗所需要樣本的準確數量需要一點技術,但有很多計算和應用軟件可以幫到你,比如 evanmiller.org 就可以幫你計算出準確的數字。

ab測試技巧
埃文斯樣本量計算器

置信區間

很可能你已經看到了置信區間,它是對測量可靠性的一個估值,一般寫成如下形式:20.0%±2.0%。

 

讓我們假設你執行的炸薯條洋蔥圈調查有足夠的參與人數來保證統計顯著性,你可以通過使用可信賴的統計計算器或軟件工具來確定。 (同時也要注意,樣本人群分布(人口統計等),但這里我們忽略了對它的簡單討論。)

 

比方說調查結果顯示20%的受訪者更喜歡洋蔥圈。現在,注意置信區間部分為±2.0%。這表示喜歡洋蔥圈的人的上限和下限,被稱為誤差幅度,它實際上是對多次重復試驗真實平均值的誤差衡量。

 

回到2%的誤差幅度,20%減去2%是18%,加上2%就是22%。因此,我們可以自信地斷定18-22%之間的人更喜歡洋蔥圈。誤差幅度越小,我們對平均值的估計就越有信心。

 

假設有一個很好的樣本群體和規模,這基本上告訴我們,我們能自信地以某種方式做調查,比如對美國人的調查中,從95%的調查結果來看,喜歡洋蔥圈的人介于18-22%之間,換句話說,我們可以比較肯定的是跟炸薯條比起來,18%-22%的美國人喜歡洋蔥圈超過炸薯條。

 

因此,在我們為餐廳訂購食材時,就能確定把22%的預算用來訂購洋蔥圈,剩下的預定薯條。那么假定食材庫存足夠,那么隨著時間和訂單的變化,我們就不太可能會用光任何一種食材了。

A/B測試中的置信區間

A/B測試應用于網站的改變,將會導致同樣類型的結論,盡管我們需要比較來自試驗 A 和試驗 B 的不同的置信區間以得出關于結果的有意義的結論。

 

現在假設在網頁上添加了一個很好看的“立即購買”按鈕,并希望這可以帶來更多的轉化,我們運行A/B測試,把當前的按鈕作為控制組,新的按鈕作為試驗組。在運行了一定數量的測試后,我們知道控制版本(Test A)的置信區間是10.0%±1.5%,測試版本(Test B)的置信區間是20.0%±2.5%。

 

置信區間的范圍告訴我們,網頁控制版本的訪客轉化極有可能在8.5-11.5%之間,測試版本的轉化在17.5-22.5%之間。盡管每個置信區間都有一個范圍,但很明顯,兩個范圍沒有重疊。

 

新的“立即購買”按鈕似乎已經顯著增加了我們的轉化率。同樣,假定有了適當的抽樣總體和樣本大小,我們就能對新按鈕增加轉化率非常有信心。

到底有多大的區別?

上面的案例中,有了很明顯的改善,但改善是多少?讓我們先忘記置信區間的誤差部分一分鐘,來看看每個測試的平均轉化率。試驗 A 的結果表明有10%的轉化率,試驗 B 有20%的轉化率,做一個簡單的減法(比如,20%-10%=10%)表明測試版本的轉化率提高了10%。

 

10%的增長似乎是一個很大的提高,但它是有誤導性的,因為我們關注的是兩個轉化率之間的絕對差。我們真正需要知道的是與控制組比較起來的兩組轉化率的差異。

 

我們知道兩個轉化率之差為10%,控制版本的轉化率是10%,因此如果我們取比(即,用對照組除以控制組的轉化率),我們會意識到其實轉化率改善了100%。

 

換句話說,新按鈕為我們帶來了100%的轉化率增長,這實際上增加了一倍。哇!我們一定要知道我們實際上增加了一個非常棒的按鈕。

 

事實上,我們可能會看到更多像下面這樣的情況。試驗 A 的置信區間是13.84±0.22%,試驗 B 的置信區間是15.02±0.27%,做相同的比較15.02%-13.84%=1.18%,這是測試版本為我們增加的百分比。1.18%/13.84%=8.5%,盡管絕對值只增加了1.18%,但轉化率增加了8.5%。因此這是一個相當顯著的改善,難道你不會為轉化率提高將近百分之十而開心?我會。

 

轉化率變化的百分比是比絕對值更值得記住的指標。轉化率增長了8.5%聽起來要比轉化率絕對值增加了1.18%好得多。

置信區間的重疊

有一點要注意的是試驗 A 和試驗 B 置信區間的重疊。假設試驗 A 轉化率的置信區間為10-20%,試驗 B 的置信區間為15-25%。(這么設置數字能簡化接下來的講解。)

 

注意,兩個置信區間的重疊為5%,并且它位于15-20%的范圍之間。如果給定這個信息的話,確保試驗 B 有了顯著的改善是很困難的。進一步解釋,通常情況下 A/B 置信區間重疊5%表明了變化在統計學上不夠顯著或是采樣數太少。

 

如果你有信心通過可信的計算方式確定了樣本規模,并收集了足夠多的樣本,那么你可能要重新考慮試驗變化并嘗試別的改變來對轉化率造成更大的影響。理想情況下,可以看到轉化率的置信區間與控制試驗不會重疊。

總結

A/B測試是建立于統計方法和分析上的技術。也就是說,你并不需要成為一個統計學家來了解相關的概念或你最喜歡的A/B測試框架給你的結果。當然你可以學習一些數學知識來計算你的測試中的統計數據和指標。但最終,可能你更關心的是什么結果能引導你讓你的營銷或產品變得更有針對性。

 

我們已經討論了和A/B測試相關的各種概念和統計術語,以及可用于決策的數據結果。了解這些概念是是從A/B測試結果中做出更好決策的第一步,下一步是確保測試正常開展,并有足夠的采樣來提供結果,這樣你才會有信心做出重大決策。

 

在線工具和資源推薦

這里有一些工具的鏈接(可能需要翻墻),能幫你進行A/B測試

A/B 顯著性檢驗工具:http://getdatadriven.com/ab-significance-test

A/B 樣本量計算器:http://www.evanmiller.org/ab-testing/sample-size.html

 

本文由吆喝科技編譯自:How A/B Testing Works (for Non-Mathematicians)

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

 

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

4084 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 五星棋牌代理 江西时时中奖事件 江苏时时走势图表 即时足球比分手机 皇家娱乐平台 北京pk10彩票官网下载 重庆彩开奖号码官方 模拟投注 云尚娱乐代理 球探比分网