統計學專家眼中A/B測試的4種常見雷區

ab測試

P-value 是犯第一類錯誤的概率

P-value 是根據統計數據計算得來的,多次試驗的話會得到不同的 P-value ,究竟哪個值才是犯第一類錯誤的概率呢?所以, P-value 和犯第一類錯誤的概率無關。犯第一類錯誤的概率應該只和實驗系統有關,是在開始試驗之前就知道的,顯著性檢驗標準 α 才是犯第一類錯誤的概率。顯著性檢驗標準 α 是試驗者設置的,作為試驗者可以有效的控制犯第一類錯誤的概率,是不是更加合理呢?

95%置信區間為[x,y]意味著被估計參數有95%可能屬于區間[x,y],且在區間中間的概率更高一些

傳統的假設檢驗基于頻率學派。對于頻率學派來說被估計的參數沒有不確定性,它就是一個固定的值。有不確定性的是抽樣,是試驗數據,所以95%置信區間真實的意思是做100次試驗,得到100個區間,其中有95個區間能包含被估計參數的值,[x,y]只是眾多區間中的一個而已,下次試驗得出的置信區間就不是它了。

脫離具體情況只關注 P-value 絕對數值的大小

P-value 是當原假設為真時,得到比目前更加極端試驗數據的概率。P-value 無法描述原假設成立的概率,因為對于頻率學派來說原假設是否成立是不存在不確定性的。頻率學派在進行試驗前對所有的原假設一視同仁,先驗知識無用武之地。實際情況下,我們對不同原假設的信心顯然是不同的。所以同樣是 P-value 為0.01,如果試驗用來證實增大網頁上的一個按鈕能提高點擊率,產品經理會欣然接受,如果試驗想推翻動量守恒定律,根本不會有人正眼看一下這個結果。

試驗過程中隨意調節不同版本的試驗流量比例

一般進行A/B測試時,會先做小流量試驗,之后逐漸增大。這是業界常規的做法。需要注意的是,在均值數據僅根據 UV 平均沒有進行天數平均的情況下,新進入的流量會拉低均值數據。這很好理解,新進入試驗用戶貢獻的點擊量必然不如已經進入試驗若干天的用戶。如果各試驗版本的流量是同步放大的,這種新用戶效應對不同試驗版本統計數據的影響是相同的。如果流量放大不同步,比如一個試驗版本5%-10%,另一個試驗版本5%-20%,后一個版本的均值數據會受到更大的拖累。對于轉化率指標,情況會好不少,因為一個用戶最多貢獻一個轉化,最先進入試驗的用戶對指標的貢獻不會比新用戶更大。

反復進行A/A測試,A/A測試觀測多個指標

在A/B測試之前進行A/A測試,避免工具有 bug ,這也是業界常規的做法。預期的結果當然是統計不顯著。然而,犯第一類錯誤的概率總是存在的,無論多么小。在一次試驗中,小概率事件幾乎不會發生;不停試驗,小概率事件幾乎一定會遇到。A/A測試中偶然出現的統計顯著結果并不能斷定測試工具存在 bug ,可能僅是概率使然。

干涉試驗流量的分配

A/B測試是通過給相同的用戶群體看不同的版本,來進行比較,最大程度的保證結果的科學性和準確性。這是由隨機分配流量來保證的,而試驗者人為的進行流量分配,給不同來源的用戶看不同的版本,則比較結果可能會不準確。如果最終目的就是想讓2個來源的用戶看到不同的版本。則建立2個定向試驗,分別進行驗證,如果確實勝出的版本不同,結束試驗后,由前端程序把這種個性化方案固定下來。A/B測試的目的是測試,測試總有結束的一天,測試結束后去掉測試代碼,把勝出方案固定下來,通過A/B測試平臺來實現產品功能是不合適的。

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

 

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

4181 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 福彩快乐十分开奖结 河北快三预测今天 安徽彩票快3和值基本走势图 六开彩历史开奖直播开奖结果开 推天九微信群 甘肃快三开奖号码 快乐赛计划网页 飞艇计划5码 北单手机客户端 娱乐网站注册送28彩金