【A/B測試算法大揭秘】第五篇:少了它,版本決策將毫無意義

關于如何避免假設檢驗中第 I 類錯誤,我們引入了 P-value 和置信區間的概念。而想要降低假設檢驗中第 II 類錯誤的出現概率 β(Beta),就需要了解今天文章中講解的另一個檢驗工具——統計功效。

%e7%bb%9f%e8%ae%a1%e5%8a%9f%e6%95%881

【什么是統計功效】

在假設檢驗中,第 II 類錯誤的定義是:當原假設為假時沒有拒絕原假設。也就是說,當兩個版本確實有比較顯著的差異時,我們并沒有判斷這兩個版本有區別。

 

統計學中,將第 II 類錯誤的概率命名為 β(Beta) ,統計功效 Power 就是我們沒有犯第II類錯誤的概率(1-β)。換句話說,我們設計了兩個版本,需要對比兩個版本帶來的效應差異,如果假定的效應差異的確存在,在給定的置信水平 α 下,我們有多大的概率能得到統計顯著性的結果,或者說我們有多大概率能發現這個差異。

 

為了提高原假設為假時我們做出正確判斷(拒絕原假設)的概率,使結果更加可靠,統計功效的值越大越好。一般來說,當統計功效取到80%~95%時,結果就是比較可信的了。

【統計功效的意義】

%e7%bb%9f%e8%ae%a1%e5%8a%9f%e6%95%882

由統計功效的計算公式可知,統計功效的值與樣本量、方差、效應大小以及顯著性標準α相互關聯。換句話說,只要得知上述公式中的幾個數據值,就可以根據公式推導,計算出想要探求的數值。

 

例如:通過給定的統計功效值,就可以推算出A/B測試中每個版本樣本用戶數的最小值。之后,將計算出的最小樣本數與版本的實際用戶數量進行對比。若版本用戶數超過最小樣本數,則說明統計功效足夠,可以得出試驗的最后結論。

【究竟哪個版本才是值得發布的】

上一章中,我們講述了如何判斷試驗版本的結果是否是統計顯著的。然而,只有當試驗版本的結果兼備統計顯著和效果顯著兩個特征時,才說明這個試驗的結束時機已經成熟,該版本是真正值得發布的。因此,我們需要引入一個“最小重要變化”的概念來幫助我們判斷和決策。

 

用白話翻譯一下,就好比:你前期先投入了50塊錢置辦設備,每個包子定價5元。所以,只有在賣掉了10個包子(收入50元)之后,你策劃并實施的這個事件才正式進入了盈利階段。道理很簡單,其實就是回本了嘛!那么在整個事件里,“收入50元”就是這個事件中的“最小重要變化”,也就是一個最小的可接受效果標準。

 

同理推論到企業的A/B測試,就更需要考慮相關的成本問題(有時甚至遠不止于此)。因此,只有檢測到的效果差異在“最小重要變化”的標準之上,我們才認為這個版本是有實際價值的。這個標準通常由指標的具體意義和我們的優化需求來確定,例如1%或者5%。

下面我們來看一個具體案例:

%e7%bb%9f%e8%ae%a1%e5%8a%9f%e6%95%883

這是5個不同版本的試驗數據,在最小重要變化為5%的情況下,我們可以應用這個標準來對試驗數據做進一步的判斷:

%e7%bb%9f%e8%ae%a1%e5%8a%9f%e6%95%884

首先,觀察每個版本的置信區間,發現 Case 4和 Case 5的置信區間不閉合,所以方案不可用,而 Case 1-3的置信區間上下限均為正,說明這三個版本相比原始版本來說都有提升。再引入最小重要變化5%,可以看到只有 Case 1的區間下限高于標準值。因此,我們判斷,在最小重要變化為5%的情況下,只有 Case 1是實際效果最佳的版本。

 

關于置信區間的系列講解到今天就算告一段落了,從一切的根基中心極限定理,到如何根據數據分析解讀最終選出真正意義上的最優版本,相信大家能夠對A/B測試的原理有一個大概的了解。

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

2919 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 安徽时时玩法 老快3玩法 2019年曾道仁心水资料 吉林快三什么是单码飞 辽宁快12开奖走势图 下载双色球基本走势图 广东刀客精准单双中特 贵州福彩网双色球 凤凰彩票 排球比分网