A/B測試中必須知道的20個問題(下)

這篇文章是A/B測試中必須知道的20個問題(下)。

11 還有什么領域也用AB測試?

對照實驗,也叫隨機實驗和A /B測試,曾在多個領域產生深遠的影響,其中包括醫藥,農業,制造業和廣告。

通過隨機化和適當的實驗設計,實驗構建了科學的因果關系,這就是為什么對照實驗(A/B測試)是藥物測試的最高標準。

ab測試

正是考慮到后驗方法的局限性,西醫(現代醫學科學)首先引入了 A/B 測試的方法來驗證新藥的療效。新藥的驗證可能是這樣一個流程:100 位患者,被測試醫生悄悄劃分為 AB 兩組,注意患者自己并不知道自己被分組,注意 AB 兩組患者的健康情況應該是接近一致的;A 組患者將會得到試驗新藥,B 組患者將會得到長的和新藥幾乎一模一樣的安慰劑;如果最終 A 組患者比 B 組的療效更好,才能證明新藥的藥效。

12 A/B測試的價值是什么?

AB測試的實驗能力可以用更科學方法來評估規劃過程中不同階段的想法價值。
A/B測試其實是一種“先驗”的實驗體系,屬于預測型結論,與“后驗”的歸納性結論差別巨大。A/B測試的目的在于通過科學的實驗設計、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實驗結論,并確信該結論在推廣到全部流量可信。

通過值得信賴的實驗來加速創新。通過解決技術和文化的挑戰,我們給軟件開發人員、項目經理和設計師一副“公正的耳朵”,幫助他們聽取客戶真實的訴求以及用數據驅動的決策。

13 A/B測試的應用場景有哪些?

A/B測試這種方法論的應用非常廣泛,包括在Web產品、移動產品、數字廣告優化領域的應用。

應用場景由小到大可以可以分為:
元素/控件層面
功能層面
產品層面
公司層面

14 A/B測試中需要用到的基本概念有哪些?

樣本空間、樣本特征、實驗流量
假定這是個電商的APP,產品有100萬用戶
樣本空間:100萬用戶
樣本特征:這100萬用戶有各式各樣的特點(性別、地域、手機品牌與型號、甚至是不是愛點按鈕等行為。。)
實驗流量:100萬用戶成為100%的流量;假定將這100萬用戶根據樣本特征與相似性規則分為100組,那每組就是1萬人,這1萬人就是1%的流量

采樣、代表性誤差、聚類

相似性采樣:在A/B測試的實驗中,需要保證小流量的實驗具備代表性,也就是說1%的流量做出來的實驗結果,可以推廣到100%的用戶,為了保證這一點,需要保證1%的流量的樣本特征與100%流量的樣本特征具備相似性。(說個最簡單的邏輯:假定把所有小米手機用戶均勻的分到這100組中,那第一組的所有小米手機用戶的特征與第2組-第100組的所有小米手機用戶具備相似性)

代表性誤差:代表性誤差,又稱抽樣誤差。主要是指在用樣本數據向總體進行推斷時所產生的隨機誤差。從理論上講,這種誤差是不可避免的,但是它是可以計算并且加以控制的。(繼續小米。。盡管把小米用戶均勻的分成了100組,但是不能完全保證每個組里的小米用戶的數量、性別、地域等特征完全一樣,這就帶來了實驗誤差風險)

聚類:物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類,也就是在分配小米用戶的過程中,需要按照實驗目的的不同把特征相似性高的用戶認為是一類用戶,比如定義100次點擊為高頻點擊,可能在某些情況下也會認為99次點擊的用戶跟100次點擊的用戶是一類用戶。

置信度與置信區間

在統計學中,一個概率樣本的置信區間(Confidence interval)是對這個樣本的某個總體參數的區間估計。置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度。置信區間給出的是被測量參數的測量值的可信程度,即前面所要求的“一定概率”。這個概率被稱為置信水平。

置信度:簡單來將表示可信程度,一般來說95%的置信度就很好了,一些及其嚴苛的A/B測試實驗才會到99%的置信度。差別在于,越高的置信度得出結論的實驗時間越長、流量要求越高

置信區間:從前面的概念中也講了,1%的流量盡管具備了代表性,但是跟100%的流量還是有差異的嘛,所以實驗結果的評判要有一定的前提的,置信度就是這個前提,置信區間表示在這個置信度的前提下,實驗結果很可能會落在一個區間內,比如下圖,95%的置信度的前提下,置信區間為[-2.3%, +17.4%],可以解讀為這個A/B測試的實驗既有可能使“點擊次數”降低2.3%,又有可能提升17.4%。說明這個實驗結果還不穩定,可能是試驗時間短或者是流量不夠。

15 數據化驅動決策與確定性提升是什么意思?

數據化驅動決策:A/B測試是典型的靠譜數據化驅動決策,先用A/B測試的方式,讓比如1%或者5%的用戶進行實驗,讓用戶用實際的行為來告訴你哪個好。比如這1%或者5%的用戶通過“點擊次數”這個指標告訴你,他們不喜歡橙色的設計。這就是數據化驅動決策,不用一屋子人你拍桌子我瞪眼的爭辯到底那個設計好,讓真實的用戶跟數據告訴你到底哪個更好。

確定性提升:這就更好解釋了,有了這么個工具,每次只有效果好了才會上線,也就意味著每次優化都能比以前更好,大大提高用戶的體驗和產品經理的自信心。

16 Airbnb的產品是怎么樣做AB測試的?

Airbnb經常用灰度發布 和 A/B測試對重要頁面的修改和流程上的調優,通過灰度發布到1%或者5%的用戶,看其實際對用戶的數據影響(訪問時間增加、留存提高、下單率提高等),決定此修改到底是100%發布還是被砍掉。

ab測試案例

Airbnb 從第一天就開始做 A/B 測試,不僅在自己的體系里做,還用第三方工具做,保證所有的決策,從產品,到運營,乃至到戰略,都是經過數據驅動的優化決策。每一個改動,都先用 1%的流量來試驗,然后再推到 5%,再到 10%,到 20%,到 50%,最后再發布給所有用戶。

通過A/B測試,他們還有一個關于推介文案的結論:給用戶展示“利他”的文案,比“利己”的更容易帶來轉化。如圖所示,告訴用戶“邀請好友可以獲得25美元”的效果就不如“給你的好友贈送25美元的旅行經費”更打動人。

灰度發布

17 Google是怎么樣做AB測試的?

Google每個月從上百個A/B測試中找到十幾個有效方案,月營收提升2%左右,10億美元的規模。很難解釋的是廣告位左移一個像素帶來X%的增收,左移兩個像素帶來Y%的虧損。

在Google,任何產品改動需要A/B測試才能上線。

Google X 生命科學分部的負責人 Andy Conrad 在《財富》的一篇文章中曾提到:
對于一個問題 Larry 會嘗試用 1、2 種辦法去解決,并且在策略上會對兩者都同時下注。

Google 幾乎所有的產品目錄似乎都要進行大型的 A/B 測試。正如 Google 的搜索引擎不斷從 Web 上收集數據加以學習和改進一樣,Google 公司本身也是這么運作的。它給單個問題提供了多個解決方案,希望能從中決出優勝者。
這種多產品策略對于 Google 的長期健康來說是好的,但它也浪費了許多資源。到處都是重復的工作,但 Google 的 Adsense 和 Adwords 帶來了那么多的收入,至少現在 Google 揮霍得起。

Google 往往喜歡針對同一客戶群推出多項競爭產品。這樣的話,如果一個產品失敗了,也許另一個產品能夠補上。最極端的例子是 Google 的即時通信解決方案。Android 上一度曾出現過 4 款不同的產品:Google Talk、Google+ Messenger、Messaging (Android 的短信應用)以及 Google Voice。Google Hangouts 最終勝出,把其他的都合并進了一個平臺。

Google 平時就是這樣折騰的。其行動表明,自己并不相信一個問題只有一種解決方案,哪怕這樣會讓用戶的日子好過得多。因為它需要應對外部各個領域的競爭對手,而且 Google 似乎也認為沒理由競爭就不能出自內部—讓自己的產品自相殘殺。

18 在線銷售的定價策略能否用AB測試?

伴隨著產品迭代、促銷等等因素影響,什么時候降價是對自己最有利的策略,完全可以A/B測試來解決。

19 移動端基于A/B測試的灰度發布怎么做?

就目前移動端的產品來說,iOS的應用商店審核期是個大大大坑,任何BUG打補丁還得再來一遍,也就意味著補丁的審核期內用戶帶著BUG使用,這個太致命了,用戶的獲取成本高的嚇人,因為這個流失太不值得了,基于A/B測試的灰度發布更重要的不是優化,而是保護性發布,先通過小流量的實際用戶測試,有BUG或者新版本體驗不好,可以立即回滾到老版本,簡單有效。

20 為什么很多公司實施A/B測試效果并不好?

大多數的產品或功能上線前都會進行測試,實際上很多的測試行為并不科學,特別是很多定向的用戶測試經常會有這個弊端,簡單來說,如果新上線的一個功能,所有的研發工程師都說好,那是不是意味著所有的用戶都覺得好?很多情況下是否定的。當然這個例子比較簡單,實際上很多A/B測試方法并沒有考慮到這個問題,以至于最后得出的結論跟實際情況差異巨大。

要解決這個問題,對采樣、聚類、流量分割等要求非常的高,這也是為什么A/B測試工具不能像很多統計工具一樣,埋個點看數據,再根據數據反推業務邏輯,而是要充分與業務結合,從一開始就應該考慮業務策略,讓用戶去選擇適合其口味的產品。

通過AB測試來優化產品的方法在國外已經被廣泛應用,現在這種代表先進生產力的方法如同GitHub、Docker、APM一樣也正在逐漸被國內廣大開發團隊所接納。如果自己公司里面缺乏專業能力和經營,可以嘗試用www.hwhvh.tw優化平臺來提高產品的設計、研發、運營和營銷的效率,降低產品決策風險,同時也能夠幫助用戶用數據優化移動廣告,讓流量的變現價值更大。

現在的互聯網公司尤其是創業型公司面臨著前所未有的競爭壓力,好的想法與用戶接受的想法有著各種不可逾越的鴻溝。特別是伴隨著激烈的競爭,誰能領先一步可能就變成了贏者通吃的局面。

 

點擊此處查看:A/B測試中必須知道的20個問題(上)

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

 

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

5627 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 黑马计划好不好 天下国际登录 牌九玩法规则 赛车七码稳赚方法 三公怎么玩详细介绍 2019重庆时时采彩开奖时间 108娱乐骗局 球探即时比分电脑版 名发娱乐注册 北京福彩pk10