【A/B測試算法大揭秘】第四篇:置信區間究竟是怎么來的?

當你的試驗已經跑了一段時間之后,需要通過分析數據來看不同版本的行為數據表現,從而決策出最優版本。那么如何才能在已有數據基礎上,進行科學可信的統計推斷呢?我們將采用置信區間這個工具。它是與 P-value 相關的一個概念,但比 P-value 給出的信息更多。所以這一章,我們就將詳細介紹置信區間的概念、計算方法以及它在A/B測試中的意義。

%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b41

【置信區間的概念】

置信區間(Confidence Interval)是用來對一個概率樣本的總體參數進行區間估計的樣本均值范圍,它展現了這個均值范圍包含總體參數的概率,這個概率稱為置信水平。

 

置信水平代表了估計的可靠度,一般而言,我們采用 95% 的置信水平進行區間估計。

【置信區間的計算方法】

根據統計學的中心極限定理,樣本均值的抽樣分布呈正態分布。

 

由之前介紹的t檢驗大樣本檢驗公式計算得出 Z 值,再根據兩個總體的均值、標準差和樣
本大小,利用以下公式即可求出兩個總體均值差的95%置信區間。

%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b42

【置信區間在A/B測試中的意義】

置信區間的不同表現,可用作判斷試驗結果顯著與否的標準:在試驗運行一段時間之后(一般來說是1-2周),如果置信區間的上下限同為正,說明試驗結果是統計顯著的,并且試驗版本優于對照版本;如果同為負,試驗結果也是統計顯著的,且對照版本優于試驗版本;如果置信區間為一正一負,則說明版本間差異不大。

 

舉個例子,當兩個不同版本都以7%的小流量運行時, A 版本的用戶總數(樣本大小)為33771,均值為23.01,標準差為53.21; B 版本的用戶總數(樣本大小)為34190,均值為22.11,標準差為50.21。

 

我們可以計算出這兩個均值比較得到的變化百分值為-3.9%,但這只是根據兩個點估計計算出的新的點估計,是有誤差的,所以我們就必須找到一個概率范圍,來準確描述結果。

 

計算出 Z 值為2.28,再根據置信區間的計算公式,我們可以得出結果為【-1.678,-0.112】,即這個區間有95%的可能性包含兩個總體均值之差。為了更直觀,我們把這個總體均值差的置信區間轉換為相比 A 版本均值變化的百分比置信區間,即【-7.3%,-0.5%】。這時候我們就可以評價試驗的結果為: B 版本不如 A 版本,并且有95%的可能性是差了0.5%到7.3%之間。

 

值得注意的是,置信區間同為正或負,只能說明試驗是統計顯著的(也就是試驗版本和對照版本有差異),但是這個差異有可能是非常小的,在實際應用中微不足道的。因此,只有兼備統計顯著和效果顯著兩個特征的結果,才能說明該版本是可用,值得發布的。

 

至于如何判定結果是否是效果顯著,則需要結合我們在下一章中介紹的統計功效來綜合考量了。

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

5888 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 快乐彩老11选5开奖 为什么ag捕鱼王天天输 香港九龙六合图库开奖 贵州茅台股票分析2019 江苏11选5胆拖玩法 黑牛分布图 足彩4场进球彩 679彩票群 回音哥在yy赚钱多么 湖北快三遗漏值