一個資深旅游行業項目經理的無奈:那些年做過的偽A/B測試

liling

本文作者:李龍@吆喝科技

本文關鍵字:網站優化、A/B測試

 

一說起A/B測試,相信很多產品經理都對這個名稱不陌生,他們會拿出一副看外星人的眼光,心里默默的說:“太 out 了吧,A/B測試這個概念又不是什么新概念。”諸位別急,就像那本經典的書名說的:你以為你以為的就是你以為的嗎?

 

我最早入行的時候,在一家外包做網站的公司,作為項目經理,公司分配我服務一家大型的國有旅游集團,這家公司成立早,在業內非常有名,主要做的是入境游業務,當時國內的線上旅游產品不像現在這么百花齊放,這家公司占據了入境游60%以上的業務。坦白講,我接到這樣的項目內心是無比激動的,做了無數的競品分析,推翻N多次的產品原型,而這家企業也不像傳統的央企,可能是因為涉外較多,他們的思路很開放,很多專業的意見他們也會接受,雙方配合的很默契。

 

做過網站的人都知道,項目中第一個重要的里程碑就是首頁設計稿,首頁設計稿決定了全站的設計風格和調性,又是一家網站的“門面”,因此該企業對首頁設計稿的設計是萬眾期待,不僅僅是領導,還有所有員工,都對這次網站首頁十分的期待,這種情緒感染了我,我帶著設計團隊不眠不休的干了一周,出了三版設計方案,擺到了領導的桌前。

 

領導看到我們的成果,首先表揚了我們的工作態度,此處省略一萬字,然后在拍板做決定的時候,領導真的是為難了,并不是他不知道選哪個,而是他不敢選,因為他很清楚公司上下對設計稿的期待,更清楚外界對本次網站改版的關注,畢竟該企業在中國入境游領域的話語權分量很重。領導看了我一眼,說,要不,讓下面的人一起看看?我當時頭就大了,下面那么多人一起看,一人提一句意見,一人提一個想法,做過乙方的都知道,我們的設計基本上就會重新推翻,我們一周的努力基本上就付水東流了啊!為了不讓兄弟們的辛苦白費,我建議領導讓所有人在三版設計風格中進行投票,決定設計風格走向,票數多的那個就作為最終的設計風格,并且冠上了一個“A/B測試”的名頭,讓領導覺得這件事的科學性和嚴謹性。

 

三版設計, A 版本在整個設計中演繹了該企業的 Logo ,最大的特點是更國企,如果各位不明白,請參照中石油官網; B 版本我們用了大量的風景圖片,最大的特點突出其“入境游”的旅游特性; C ?版本是我們推薦的版本,使用了顏色絢麗的設計風格,并且手繪了一個熊貓的卡通圖形,整個網站的風格更加偏向國外旅游網站,因為畢竟這個網站的受眾是外國人。我們一致認定, C ?版本必勝!但是,投票當天的結果大出意料,最后 A 版本選票最多,因為這家企業的員工都認為,既然是做自己企業的網站,那就必須圍繞自己的企業做文章。

 

這件事回過頭來看,其實發現當時做的A/B測試實在是稱不上科學的實驗,因為犯了以下幾個錯誤:

1.采樣不準確。在A/B測試中,采樣是一件很重要的事情,如果采樣不準確,那整個實驗就算是有結果,其結果也是不準確的。什么是采樣的準確?就拿上文中的例子,我們的采樣就是該企業的員工,這些員工首先不是網站的受眾,其次他們看問題的角度會有局限,我們想當然就把員工的想法等同于用戶的想法,而這個網站的用戶都是黃頭發藍眼睛的外國人,想法差距就更大了。

2.樣本數量太少。該企業的入境游業務占了中國入境游的半壁江山,而他們的員工只有200多人,200多人的樣本不能完全代表全流量的用戶,就像我們不能說拋十次硬幣如果8次正面,2次反面,我們就說拋硬幣的概率就是80%的正面,這很可笑。

3.實驗變量太多。科學的A/B測試為了保證實驗的準確性,在變量設置上不會很多,很多時候就是改動一個按鈕的顏色,或者是一句文案的改變,就是為了盡量減少變量對數據結果的影響,如果變量太多,那就算有實驗結果,作為實驗設計者也并不清楚,到底是哪個變量導致的數據變化。

4.實驗結果分析。做A/B測試不是全民投票,票數決定一切。A/B測試的結果要經過統計學的分析,結合正態分布和隨機變量等計算得出的結果才是可信的。

 

從上我們可以看到,一次成功的A/B測試并不是那么容易的,那有沒有可以借助的工具呢?

 

吆喝科技的A/B測試云服務倒是可以解決上述的問題,首先我們來看看采樣的問題,在吆喝科技的A/B測試后臺,有一個流量控制面板,如果我們需要在運行控制界面中為實驗的每個版本分配試驗流量,百分比為占用全部流量的比例,控制流量可以通過一個按鈕實現。

b1

科學的流量分割一定要保證流量的選取具備代表性,如果試驗結果顯示 B 優于 A 有可能應用 B 版本到全體用戶中之后,它的表現反而比 A 版本差,Appadhoc A/B Testing 通過科學的試驗流量分割算法,保證不同版本的用戶都具有相同的代表性,對比結果是科學可信的。為保證用戶體驗,通常參與過某一個試驗版本的用戶,再次進入應用時,依然會看到這個版本,除非在試驗運行之后調整過流量。吆喝科技建議在開始運行試驗時分配較小的流量,之后為獲取更準確的試驗結果可逐步提升流量。

 

其次是對實驗結果的分析,一次科學的A/B測試實驗完成后,實驗數據的分析和統計也決定了這是否是一次成功的實驗。在吆喝科技的A/B測試后臺,引入了一個置信區間的概念,置信區間描述了試驗版本比對照版本提升的范圍,95%指的是實際提升出現在這個范圍內的概率。查看置信區間,如果上下限同為正,說明試驗版本比原始版本有了提升;如果同為負,說明試驗版本不如原始版本。如果置信區間的上下限位一正一負,則說明試驗版本和原始版本沒有顯著差別,或者試驗數據還不足以判斷結果,需要運行試驗更長時間,收集更多數據。

nnnnnn

我們做A/B測試的目的就是為了驗證實驗的結果推廣到全流量可信,這需要大量的統計學進行分析,吆喝科技的后臺整合了這些計算方式,把最終的結果展現在實驗者面前,節省了大量的時間。

 

這只是吆喝科技A/B測試后臺的部分功能,更多的功能還需要慢慢發掘。

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

4499 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 广东时时彩任选2 青海快3今天开奖 北京赛车pk10开奖直播+视频 娱乐城充值 爱玩棋牌斗牛游戏外挂 聊天还能赚钱哦 安徽25选5开奖结果查询 新疆11选5走势图一定牛 篮球规则大全图解 福建体彩十一遗漏数据