一篇文章讀懂A/B測試背后的統計學原理

為了可以讓大家更好地理解 A/B Testing 背后的統計學知識,我們之前已經發過幾篇深度分析文章;但是這些文章中涉及的一些術語和統計學知識,對一些基礎不太好的同學難免會造成困惑,為了可以讓大家更好地理解這后面蘊藏的學術邏輯和算法基礎,我們特地從非學術的角度整理出一期內容,獻給大家參考。

 

A/B測試是一種對比試驗,在試驗過程中,我們從總體中抽取一些樣本進行數據統計,進而得出對總體參數的一個評估。我們能從試驗數據中得出有效結論的科學基礎是基于統計學原理。

 

從 A/B 測試的試驗原理來看,它是統計學上假設檢驗(顯著性檢驗)的一種形式。

 

既然涉及統計學了,我們先來了解一些基礎概念,這些會對我們理解這些內容有很大幫助。

在現在的 Appadhoc 平臺做測試時,我們通過對試驗數據的解讀來確認哪個版本的效果更好;整個過程就其實相當于在做一個對比試驗,通過綜合對比原始版和試驗版本的樣本數據,從而判斷這兩個版本存在差異或者相同的結論。

 

首先,在試驗過程中存在2個假設,這兩個假設的關系我們需要先搞清楚。

原假設:我們希望通過試驗結果推翻的假設

備擇假設:我們希望通過試驗結果驗證的假設

 

我們在做A/B測試時,利用試驗樣本數據判斷備擇假設是否成立。邏輯上運用反證法,統計上依據小概率思想。原假設和備擇假設是一個完備事件組,而且相互對立。在一項假設檢驗中,原假設和備擇假設必有一個成立,而且如果其中一個不成立則必須無條件接受另一個。

 

在A/B測試過程中,因為我們試驗的目的是通過反證法證明測試版本和對照版本有明顯的不同(提升),所以在這個場景中,原假設就是原始版本和試驗版本無差異,而備擇假設就是這兩個版本存在差異;這也很好理解,因為我們肯定不希望做了半天測試,得到的結果是兩個版本一點差異都沒有吧?

 

現在中心思想明確了,我們的做A/B測試的試驗的目的就是推翻2個版本無差異的原假設,驗證他們有差異的備擇假設。

 

既然做試驗時,我們通過樣本數據去驗證我們的觀點,那肯定會有犯錯的概率,為了得到科學的試驗結果,我們則需要盡可能減少這些可能導致我們隊試驗結果做出誤判的概率。

第一類錯誤:原假設為真時拒絕了原假設

首先我們容易犯的就是第一類錯誤,就是原假設為真時拒絕了原假設,說白了就是過來就是2個版本無差異時候,我們錯誤 的認為他們有差異(從統計學角度講也叫棄真錯誤)這個錯誤的后果非常嚴重,所以我們把這它的標準設一個值0.05, takingcialis 它其實就是一個概率, 這個概率就是我們容許自己出錯的概率。

 

這個就是5%就是在統計學里稱作?α , 它代表著我們這個試驗結果的置信水平。與這個置信水平相對應的就是置信區間的置信度,由 1-?α 得出,所以你在這里看到如果?α 是0.05,那置信度就是0.95,也就是說,如果我們容許自己出錯的幾率是5%,那我們將得到一個有 95% 的可能性包含真實的總體均值區間范圍,如果你把這個?α 調整成0.07,那你的置信區間的置信度將變成93%。

 

由于?α 是我們自己設置的,那么當然需要通過數據去驗證一下,這個通過計算出來的值就是 p-value , p 的定義就是,如果兩個版本無差異的前提下,我們得到這個試驗數據的概率。

 

p-value 是計算出的,?α 是我們自己設定的。

%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4

p <=?α 則意味著我們的測試得到了統計顯著的結果, 因為只有我們得到的這個 p 的概率越小,我就可以越有信心的地根據小概率事件不會發生的判斷依據,從而推翻原假設,接受備擇假設。(假設 p 值0.04 那么意味著如果原假設為真,我們通過抽樣得到這樣一個樣本數據的可能性只有 4%。則我可以認為此次試驗發生了小概率事件。根據小概率事件不會發生的判斷依據,我們可以反證認為原假設不成立,接受備擇假設的事實。)   p 值核算涉及樣本均值,樣本數量,和標準差。

第二類錯誤:原假設為假時接受了原假設

減少了第一類錯誤后,還有另一種錯誤會影響我們的決斷,

 

那就是原假設為假時接受了原假設,說白了就是2個版本有差異時候,我們錯誤 的認為他們沒有差異 ,這個錯誤的概率在統計學角度也稱為取偽錯誤,記為 β ),這個概率可以相對大一些,業界大約定俗成的一個標準就是10%和20%的概率。

 

和顯著性水平一樣,為了避免我們犯第二類錯誤,我們需要通核算 β 從而計算出另一個參數來給我們參考,就是統計功效,和核算置信區間的置信度類似,它是的思路是 1-β 來得出 (統計功效 ?power = 1 – β )

 

統計功效是指版本差異(效果)為某個指定值時,通過顯著性檢驗能正確地把差異檢驗出來的概率。說白了就是,假設兩個版本的確存在差異,我們能夠正確拒絕原假設,獲得統計顯著性結果(95%置信區間中數據)的概率。

 

統計功效的核算涉及樣本數量,方差,?α 、以及最小變化度或者置信區間下限。

 

由此可見,只有我們把第一類錯誤控制在5%以內,第二類錯誤控制在10%-20%左右,我們才可以說得出具有參考價值的出的試驗數據。

 

換句話說,我們在做A/B測試時,試驗結果達到95%的置信度,以及80%-90%的統計功效時,它對我們來說才是有意義、可以作為決策參考的。

 

本文作者:吆喝科技 CSM 團隊傅禮陽,如果你對這篇文章感興趣,或者還有不理解的問題,可以添加作者微信討論:fly415。

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) ?A/B 測試?服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

 

10867 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 篮球比分直播90vs 重庆时时彩基本走势图360彩票 2019欧洲足坛最新转会 四川快乐十二怎样下载 时时彩开奖号码是怎么产生的 二八杠软件 贵州快3开奖结果今天 贵州快三形态一定牛 幸运赛车开奖软件下载 2018手机认证送彩金不限ip