開始A/B測試前,你必須知道的13件事

《后會無期》中有句臺詞:「聽過很多道理,還是過不好這一生。」你是不是也已經聽過很多關于增長黑客和 AB 測試的知識,但依然遲遲沒有開始動手?心中還有很多顧慮和擔憂?我們來為你解答。

 

在開始之前,如果你對AB測試還不是很了解,或者并不知道它可以用來做什么,你可以先看看下面這篇文章:

 

人生沒有AB可選,做APP、H5、廣告是可以的

 

如果對 AB 測試已經很熟悉,請繼續往下讀。

ab測試

1. 如何理解“用數據幫助開發者做產品決策”?

移動互聯網的產品經理和工程師在設計和開發產品時,會更多的從C端用戶的需求出發做產品優化。 需要強調的是,對用戶行為的深度理解,很難僅僅依靠決策者的個人洞察力。有些經驗只有通過科學的 AB 測試的試驗數據才能獲得。 小到顏色調整,大到產品邏輯,都可以通過數據來驅動產品的優化。

 

用 Amazon 的信用卡廣告作為例子,這個廣告最初放在購物頁面里,幾乎無人問津,并且浪費了寶貴的廣告位;當產品經理嘗試把這個廣告放在結算頁面時, 用戶就會發現這個信用卡的好處。AB 測試的試驗數據顯示這個改進會帶來年化上億美元的營收增長。產品經理以數據證明了自己的成功。

 

全數據驅動 (Data Driven) 的產品優化理念就是為產品優化確定可以量化的“優化指標”,進而通過 AB 測試這樣的科學試驗手段來大膽嘗試各種改進,由試驗數據來決定哪種改進更好。 需要注意的是,試驗數據如果不進行充分的分析可能會帶來不正確的決策。

 

比如電商 App 的新設計里強調了商品價格,結果導致用戶點擊率下降一半!說明這個改動是不好的么? 不一定,因為有可能點擊商品的用戶的購買轉化提高了2倍以上。也就是說,新設計的商品信息對用戶更加有用了,反而可能增加營收。

 

另外,閱讀數據要全面,要避免以偏概全或者以全蓋偏的問題。例如,如果 App 用自己公司的員工做試驗,得到的試驗結果未必能推廣到全體用戶。

 

再例如,試驗結果顯示新版本比老版本提高了0.2%,微不足道;但是可能對城市里的年輕女性 iPhone 用戶來說,新版本比老版本提高了20%,從這個試驗中學到的經驗依然很寶貴。

 

所以,App 開發者需要制定科學的優化指標,從海量數據中挖掘出有用的用戶行為信息。 AppAdhoc A/B Testing 支持自定義的優化指標和可計算的復合指標,能夠多維度的分析試驗數據。我們吆喝科技的專業團隊,也會做好咨詢服務,幫助開發者理解和分析試驗數據。

ab測試工具

2. AB 測試可以測試哪些具體內容?

從視覺上的 UI 改變,到著陸頁的轉化率優化,甚至是后端推薦算法等等。用數據優化產品,用 AB 測試做真正的 Growth Hacking。

3. 如何通過 AB 測試降低開發成本,節約開發資源?

AB 測試可以使你在現有流量中獲取更高的收益。每個產品都希望訪客最終可以轉化成為有價值的用戶。 去獲取新的用戶和流量多數時候會耗費很高的成本,但是如果將現有的流量盡可能高的變現,成本會小得多。 這種轉化的概率統稱為“轉化率”。在 AB 測試中,設定 AB 版本進行對比試驗,即可得知哪個版本擁有更高的轉化率。

4. 我的用戶量級很小,是否適合進行 AB 測試?

想要獲得一個可信度較高的 AB 測試結果,日活最好能夠保證大于1000,否則進行可信 AB 測試是比較困難的。此外,在保證一定用戶量級的情況下,試驗時間也要運行充足。

5. 點擊率這種指標的短期優化會和產品質量的長期優化矛盾么?

有可能,在構建優化指標的時候需要考慮對用戶的長期影響。比如,把用戶活躍度按照用戶注冊時間來加權,就可以生成一個針對用戶長期行為的優化指標。

6. 測試版本和控制版本的流量分配有相關性么?

測試版本和控制版本的流量分配沒有相關性。理論上來說,為了保證試驗結果的科學性,測試版本和控制版本的流量分配建議保持一致。但在流量足夠的情況下,只要保證試驗結果的置信區間在收斂范圍內,那么不同版本的流量也可以進行差異分配。

ab測試技巧

7. 隨機流量分割是單純的隨機分配嗎?

當然不是單純的隨機分配。如果試驗流量分割是通過單純的隨機算法完成的,A 和 B 兩個版本的用戶群體很可能就不具有代表性,無法進行對等的比較。所以需要通過科學的試驗流量分割進行聚類分析,使得每個測試版本的用戶群體都具有相同的代表性,對比結果是科學可信的。

8.95%置信區間是什么意思?

置信區間是指參與試驗用戶的優化指標相對于產品所有用戶在同一優化指標均值的區間估計,展現的是優化指標的真實值與參與試驗用戶指標數據的相似度。95%是置信度,置信度越高,置信區間就越大。

 

以優化點擊率為例,當測試版本的優化指標數據好于控制版本,在試驗報告的數據變化中顯示為“+55%”。那么在95%的置信區間下,版本上線后有95%的機率能夠將真實點擊率提升50%-60%,點擊率提升低于50%的可能性小于5%。

 

此外,需要注意版本測試時的用戶流量大小,小流量的用戶行為統計在流量放寬后關鍵指標數據可能會發生變化。建議用戶在試驗過程中,由小到大逐步增加流量分配,同時實時監控關鍵指標的數據走勢,得到可信的指標分布區間,實現關鍵指標數據的真實優化。

9. 什么是辛普森悖論?

當人們嘗試探究兩種變量是否具有相關性的時候,會分別對之進行分組研究。 然而,在分組比較中都占優勢的一方,在總評中有時反而是失勢的一方。該現象命名為辛普森悖論。

 

該現象在 AB 測試上的表現就是:如果試驗流量分割是通過純隨機算法完成的,A 和 B 兩個版本的用戶群體就不具有代表性,無法進行對等的比較。 如果試驗結果顯示 B 優于 A,有可能應用 B 版本到全體用戶中之后,它的表現比 A 差。

10. 什么是區群謬誤?

區群謬誤是一種以全蓋偏,認為對全部用戶好等于對部分用戶好。需要將試驗數據進行多維度切割,幫助深入理解一個新功能對特定人群的效果。

11. 在線灰度發布功能是如何加速 APP/Web 敏捷開發的?

對于早期 App 開發者,精細化的優化成本太高,大量微調型的 AB 測試也沒有必要。但是在線灰度發布功能是十分有用的,可以大大提高開發者的敏捷開發效率。通過使用第三方 AB 測試云服務,接入包裝了“模塊開關”這個 API 接口的 SDK,開發者在每次改動代碼時可以在控制臺定義一個或者幾個模塊開關,然后用模塊開關來保護代碼改動。 簡單的說,可以讓新功能只有在模塊開關打開的情況下才展示給手機用戶。

 

在新代碼部署上線之后,用戶對新代碼無感知。 開發者可以通過控制臺開放新功能給部分用戶,用來檢測 bug 和獲得用戶反饋。 如果發現問題,可以隨時回滾到老版本;如果新功能獲得成功,則可以推送給所有用戶。

 

這種對不確定的新功能進行灰度上線的模式,能夠使每一次代碼改動更快的部署,減輕企業內部的 QA 和測試壓力; 而且可以快速通過應用商店的審核;特別是在發現問題時可以無須通過審核直接關停有問題的試驗。

灰度發布

12.怎么判斷一個試驗是否已經達到成熟的試驗結果?

通常判斷一個試驗結果是否成熟可根據置信區間和顯著性,置信區間表示試驗真實的結果會在該區間之內,顯著性表明試驗結果在當前條件下已經穩定可信。

 

要獲得一個可信的試驗結果需要一定的流量和時間,如果流量太小,試驗結果會存在偶然性,可能無法得出可信的結果;試驗運行時間太短的話同理。

13.使用第三方 AB 測試云服務是否安全?

以吆喝科技的 AppAdhoc 為例,首先,我們的 SDK 并不會獲取用戶的個人信息,我們只統計客戶 App 關心的優化指標,所以我們是和客戶 App 一起尊重用戶的個人隱私; 其次,我們并不保存和處理 App 的歷史數據,AB測試需要的只是短期的試驗數據用來科學的判斷哪個試驗更成功就可以了。最后,我們可以為客戶 App 提供私有云解決方案,數據完全不經過我們。

 

而且,AppAdhoc A/B Testing 支持可視化編輯功能,所見即所得,無需代碼知識,就可以完成試驗創建。

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

 

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

6213 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 东方心经彩图2019 重庆时时彩稳赚方法如下 福建快3走势图-开奖号码 买大小单双的平台app 江西福彩15选5开奖 竞彩胜负最新推介 牛牛稳赢公式 kj4242开奖结果开奖记录 足球让球胜负正是什么意思 注册就送彩金的游戏网站