Life Hacker:一位程序員奶爸和他的雙胞胎寶寶,關于A/B測試不得不說的故事

ab測試

我是一對雙胞胎寶寶的爸爸,我的工作是寫程序,業余愛好是用A/B測試來優化生活中的一切。有時候真的覺得我的寶寶是上蒼給我最好的禮物,因為有了寶寶之后就再也不缺A/B測試的樣本。

灰度發布

“我想知道怎么能讓寶寶們睡的更好,”老婆在照顧寶寶睡覺的時候隨口說道。程序員的思維方式告訴我,這個問題必須得到解決,為了寶寶。(難道不是處女座思維?)

軟件開發者在看到問題時,第一時間就會想辦法來做測試。很幸運,我知道有一個完美的系統,在可控和可測量的環境下能測試一些想法;更幸運的是,我家寶寶是一對雙胞胎,這樣試驗就更容易了。噢,忘了說,這個完美的系統就是A/B測試。歡迎來到程序員奶爸的A/B測試!

ab測試工具

奶爸的A/B測試科普

A/B測試在網上隨處可見,不經意間,你每天可能會遇到沒有上百次也有幾十次A/B測試。所有大公司都會做A/B測試,把它作為一種測試和衡量想法表現情況的工具。 Google 每天運行上千次A/B測試,其中比較有名的一次就是對搜索結果的41種藍色的測試。設計師說他們決定不了用哪兩種藍色,于是就測試了41種藍色,哪種能帶來更多的用戶點擊。 Facebook 通過用戶反饋不斷測試不同的用戶體驗。Amazon 甚至頻繁地改變購買按鈕和購物車布局,如果你在新電腦上登錄或是看到朋友打開 Amazon 官網,可能會看到跟你略微不同的網站。

 

A/B測試用于測試一個或多個“對照組”與“控制組”或當前版本之間的不同。指標衡量通常基于用戶行為比如點擊或“轉化”以對照組為基準做對比。拿 Google 為例,它們可能測試不同顏色對用戶點擊的影響。經過一段時間達到統計顯著,通常是一周或兩周,表現更好的指標會被選作贏家,并作為新的控制組。在這種情況下,當多個試驗同時運行,或當用戶百分比不是均勻分布時,會變得很復雜,需要復雜的統計學知識或使用許多強大的測試工具。在 Audible 和 Google ,一直都在做這種測試,這是觀察用戶實際表現最好的方式,比如用戶會說什么,會做什么,他們做的會有那些不同。

 

說了這么多,那么A/B測試和我家寶寶的睡眠時間之間有什么關系呢?接下來我就會用A/B測試的方法來優化寶寶的A/B睡眠時間。

奶爸對寶寶睡眠時間的A/B測試

ab測試技巧

我決定用這種方法來測試我的10周齡大的雙胞胎兄弟在屋內的睡眠情況,看是不是能增加最關鍵的指標:睡眠時間。

 

一個寶寶作為控制組,另一個寶寶作為實驗組,以控制組為基準,我測試了幾個關于睡眠時長的基礎理論。

 

在所有試驗中,準確的測量和數據跟蹤至關重要。通常一個指標的成功選取是出于數據或測量能力的可用性。你肯定不想嘗試測量指標比更改測試或測試輸入耗時更長。幸運的是,測試睡眠時間小菜一碟,當寶寶們睡醒時把時間記下來就行。

 

這就是從他們出生那天醫院的護士把寶寶交給我們時我這個超級奶爸一直在做的事。雖然跟蹤數據很容易,但我也已經用了好幾個筆記本。為此,我嘗試把數據導入電子表格,這樣能更直觀地看到影響。

app優化工具

我們先測試了在睡前增加寶寶喂養量。

 

除了按照平時4盎司的量,我嘗試了5盎司,6盎司。因為試驗結果在好和壞之間循環,為了防止一個孩子作為對照產生偏見,我交替了測試和控制組。一個寶寶睡前喂養量較大的時候,另一個小孩就喂4盎司。

 

試驗結果:不確定。兩個寶寶在這期間的睡眠時間都增加了,寶寶的睡眠時間差不多一樣長。其中有一天晚上睡眠時間延長了5.5小時,并且寶寶也吃了更多,但是這樣一個數據點在數據集中是無關緊要的,果斷去噪。超過5盎司的食物有很有可能讓寶寶在飯后吐幾分鐘,這也是很難繼續這樣測試的原因。因為這個,就不再繼續這個試驗了,寶寶的健康最重要嘛。

app優化技巧

接下來是測試在親子博客上流傳的一個小妙招,關于祛風劑的使用。據說這種混合的草本植物和香料,跟肯德基的混合物相反,會讓胃里的回流和氣體消失,尤其在晚上,帶來更長時間的睡眠。

 

經過一周的測試,我們發現它確實幫助回流,雖然我們沒有跟蹤,但打嗝或放屁,似乎也減少了。睡眠的長度沒有受到很大影響,但確實看到一個小幅度的增加,大概在20到30分鐘之間,但這也可能是由于寶寶年齡的自然增加。

 

在測完祛風劑之后,我們對睡前給寶寶的額外喂食做了測試。寶寶們開始很自然地這樣做,我們試圖阻止它。然而,這似乎是一個很成熟的測試機會,所以我抓住了。許多寶寶在睡前會“集中”喂食一小段時間。

 

我們在前一次喂食后約1.5至2小時后給寶寶喂食,而正常情況下間隔是3小時。在試驗中,我們嘗試了113.40g,是他們通常白天食量的4/5。有時他們會在超過3/5時拒絕進食。在所有的實驗中,這似乎是最好的結果,我們看到增加了一個多小時的睡眠,雖然試驗里這種現象沒有持續幾天,但顯然影響睡眠模式是需要時間的。

 

A/B測試的一個很好的教訓是,有時會有一個幾天的調整期,在找出新的對照和調整前,重要的是捕獲調整期結果和調整后的結果。蘋果公司之前在幾個產品發布時,忽略了調整期,特別是地圖產品。

 

最后,我測試了讓兄弟倆在白天清醒的時間更長。我的假設是,他們會因此在夜間更累,結果睡得更長。這可能是真的,我們看到睡眠時間有輕微的增加,但沒有把讓他們保持清醒的壓力和疲勞考慮進去,這也會讓寶寶們不開心。晚上讓他們安定下來睡覺也花了更長時間,因為他們過于疲勞和不開心。

 

測試的教訓:不要為了一個小增益而犧牲其他指標。

 

這里的許多測試是不確定的,主要是由于相同的大小。如果有像 Facebook 這樣的樣本群體,測試可以在小段中完成,并且非常快速地實現統計意義。但對于雙胞胎的試驗來說,很難知道什么是真正的結果,什么是個性或自然進展。為了更準確地測試,我們可能需要增加樣本大小,是時候生三胞胎了,也許可以結別人的三胞胎測試,我媳婦說她還沒準備準備好生三胞胎!

 

對我家寶寶的A/B測試顯示了測試 – 衡量 – 迭代過程的重要性。雖然幾種方法沒有顯示出很大的改進,但放在一起的話就有可能。通過讓對照組勝過控制組,堆積小的改進,繼續嘗試新事物并保持前進,你不需要搬動整座大山,只需要長期移動小的山石,通過這種方式,寶寶也可以茁壯成長。幸運的是,我們作為父母的理智,幸福和時光也會隨著寶寶的長大一起成長。

 

更幸運的是,媳婦威武,生了一對雙胞胎給我,這樣今后可以嘗試更多可行的A/B測試,來優化寶寶和我們的生活。

 

本文編譯自:http://www.lifehacker.com.au/2016/11/how-i-used-ab-testing-to-hack-my-kids/

 

吆喝科技:國內唯一同時支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等) A/B 測試服務的專業 SaaS 平臺。支持線上灰度發布、多維度數據統計分析、科學的流量分配系統、一鍵發布新版本無需應用市場審核、定向測試。

 

用數據幫助用戶優化產品,提升轉化、留存和你想要的一切。 AppAdhoc 用數據驗證最佳方案,提高產品設計、研發、運營和營銷效率,降低產品決策風險。

4295 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 单双中特百分百高手论坛 吉林快三基本走势图表 福建11选5推荐号码 18156期足彩进球彩推荐 河南11选5开奖软件 体彩p3试机号今天 如何发展副业赚钱买房 大庆冠通棋牌手机下载 百家乐平注胜进与负追 能靠爆装备赚钱的手游