關于試驗——產品經理應該了解的一切

很多人都知道他們應該做試驗并對產品做測試,但不知道從哪兒著手。所以,下面是告訴你如何開始試驗的完全指南。

這篇文章將通過鳥瞰式的試驗循環,目的是幫你把試驗變成一個過程,成為產品管理中正常而又自然的一部分。試驗周期由以下部分組成:

  1. 計劃
  2. 實現
  3. 監控
  4. 行動

通過閉合這個循環,試驗結果反饋到: a)試驗計劃,b)待開發任務列表,或 c)開發優先級,這個循環在很多方面類似于 OODA 循環。

 

image1

圖1:試驗周期——規劃—>實施—>監測—>規劃

 

通過試驗來讓你的產品變得更好。如果試驗結果沒有產生要運行的新試驗或產品開發的變更,那么你的進程或正在運行的試驗可能有錯。記住,知道不做什么也能讓你的產品變得更好。

在本文中,我會開始規劃和設計試驗,通過常用的工具和技術開始實施試驗,并監控試驗運行。要退出,我們會看對試驗結果的操作(重新啟動循環)。

 

規劃試驗

在不進行任何規劃的情況下進行試驗是很有誘惑力的。這種方法可行,但很難讓你從試驗和運行試驗的過程中充分受益。

 

從一個問題開始

試驗的一個良好的開端是提出一個問題,然后做出幾個回答問題的假設。一旦你有了這些假設,就可以設計證明或反駁假設的試驗。

我們來看一個例子。轉化率對公司非常重要,推動更高的轉化率是一個關鍵目標。所以問題變成:

  • “為什么目標網頁的轉化率不是30%?”

考慮到這個問題,現在我們創建幾個假設作為測試的起點:

  1. 號召性用語應為紅色按鈕
  2. 沒有清楚地傳遞注冊的價值
  3. 網頁上有好幾個不同的號召性用語

不幸的是,這些都不是很好的書面假設。讓我們對如何指定假設提一些嚴格的要求,以便我們完全理解正在發生的情況。構造假設語句的傳統方法是使用 “if”,“then” 方法,例如:

  • “如果我給植物澆水,那么植物會生長”

或者結構略有不同

  • “如果我不給植物澆水,那么植物不會生長”

因此,如果我們用 if / then 格式重述上述假設,它們變成:

  1. 如果號召性用語按鈕用紅色,那么注冊人數會上升
  2. 如果我們改變能傳遞價值的注冊頁面副本,那么注冊的人數會上升
  3. 如果我們刪除網頁上除了一個號召性用語之外的所有其他號召性用語,則注冊的人數會上升

這些假設說明了獨立變量(位于 if 之后)和因變量(位于 then 之后)。這樣的假設還可以用一個“因為”子句來擴展,它規定了為什么你認為因果關系存在。比如說:

  1. 如果號召性用語按鈕為紅色,那么注冊的人數將上升,因為頁面上的紅色按鈕做了突出顯示
  2. 如果我們改變說明注冊價值的副本,那么注冊的人數將上升,因為他們能理解他們獲得的價值
  3. 如果我們移除網頁上除了一個號召性用語之外的所有號召性用語,那么注冊的人數將上升,因為他們不會被多個號召性用語分心

一個好的假設是能用可控的自變量和可測量的因變量來檢驗的假設。它清楚地解釋了將要改變什么和改變的預期效果。

對此的實際測試是,其他人是否能讀懂并向你解釋,將會做出什么樣的改變,又能產生什么樣的預期效果。如果他們不能,那么你需要重新審視假設。你要能把你的假設交給那些可以設計測試假設所必需的試驗的人。

 

從假設到試驗

一旦有了假設,就需要創建試驗來測試假設。試驗要允許自變量(位于 if 之后)的受控改變,并測量因變量(位于 then 之后)的變化(如果可以的話)。

如果你已經很好地描述了你的假設,顯然現在需要根據假設來測試試驗。例如,設計試驗的假設為:

  • 如果號召性用語按鈕是紅色,那么注冊數量將增加

這個假設的試驗是一個模板,其中號召性用語按鈕是紅色的,但這不是完整的試驗。你不能確定因變量的任何更改是否確實落在對自變量的更改上。因變量變化可能是由另一個獨立變量引起的。為了確保產生有效的結果,你還需要通常所說的控制變量。

因此,試驗對自變量進行受控變化,測量因變量,然后將結果與對照進行比較。

所以,對于我們的紅色按鈕假設的例子,試驗將包括在已經存在的頁面模板(控制組)和具有紅色按鈕(變量組)的相同頁面模板之間劃分網站流量,測量注冊的用戶數,并比較從控制組和變量組注冊用戶的數量。考慮到每個模板的流量差異,你應該比較轉化率(注冊用戶數除以唯一身份訪問者的數量),而不是絕對注冊數。

image2

圖2:從問題到假設到試驗

 

你不可能有無限的資源和時間來測試每一個可能的假設。按照假設優先級進行測試,重點放在根據你的研究和經驗,實現的可能性最強的假設。

對假設的測試不是單單回答這個問題。你需要提出多個不同的假設,因為實際的答案可能不明顯。因此,你需要對將要運行什么試驗有一個計劃,你將做的能產生什么積極或消極的結果。花在研究和定義問題(問題和假設)上的時間越多,試驗過程越好,價值就越大。

關于這個問題的最后說明:重點關注直接與業務價值或 KPI 相關的問題。運行一些試驗是有吸引力的,因為它們很容易或很有趣,但你越遵守試驗的規則,你也會從試驗周期得到更大的價值。

 

 

在公司建立它

讓公司的其他人參與試驗。這有助于公司的其他人關注最終用戶在做什么或重視什么。通過讓整個公司參與到試驗過程中,可以全方位地實現數據聚焦的決策,并幫助改善 HiPPO 問題(指領導拍板式決策,河馬是指公司薪水最高的一群人)。基于試驗結果改變開發優先級成為公認的實踐。

讓整個公司參與試驗的另一個好處是,它有助于克服工作中的自我效應。讓你的工作通過測試挑戰通常對于人來說是對抗性的,并產生一些抵制或消除。然而,通過讓人們創造假設并從開始計劃做試驗有助于改變對發生的事情的感知和其背后的價值。

 

實施試驗

對于如何實施試驗,要考慮你不被捆綁到研發發布周期和資源。這提供了必要的靈活性,以便按照產生最佳結果的時間表實施和監測試驗。實際上,你希望限制你跟研發優先級和資源的耦合程度。

在實施試驗時,記錄試驗的詳細信息(名稱,位置,測試內容,變量),開始和結束日期以及試驗日志中的最終結果。這有幾個目的:

  • 它可以幫助你跟蹤發生了什么,
  • 你擁有測試運行的歷史記錄,結果和對結果采取的操作
  • 它作為公司其他部門的報告工具

第一次做這種記錄時可能看起來很麻煩,但隨著試驗成為一個常規的過程,正在進行和歷史試驗的數量將迅速增長,使得難以讓一切保持順序。

 

如何實施試驗?

有兩種基本類型的測試,A/B和多變量測試。A/B測試是1個或多個變量與控制組(通常是當前運行的版本)的比較,用于證明或否定假設。多變量通過比較組合的變化,來證明或反駁假設。

對于假設1的A/B測試就是對當前的行動呼吁按鈕和紅色的按鈕進行測試。多變量測試是測試哪種組合的紅色按鈕和副本改變反駁或證明假設的測試。多變量測試可以被認為是多個A/B測試同時在同一頁面上運行。

在兩者之間進行選擇取決于:

  • 你的流量
  • 可用于測試的時間
  • 是優化還是要找大的提升

多變量需要更多的時間和流量來產生統計上有效的結果,并且通常最好集中于圍繞最大值進行優化。更簡單的A/B測試更適合于在流量和時間受限的情況下發現更好的最大值。A/B測試將比多變量測試更快地達到統計學上有效的結果。

 

設計變量

你的變量由你提出的假設驅動。范圍越小越具體的假設,能讓你在局部最大值附近進行優化的可能性更大。

 

局部最大值問題

局部最大值優化是一個問題,因為你永遠不會產生大的改進。相反,在小的改進上也要花費很多努力。類比可能有助于更好地解釋。假設有兩座山,一座小山,一座大山,你想爬上山頂看平原。如果你的眼睛一直關注在地面,并且你在小山附近,這時候你開始爬山,無論你走多遠,你不會得到更高。但是,如果你向上看,你看到了大山,那么你就能爬到更高。

為了避免局部最大值問題,提出差異很大的變量。這可以擴展到完全不同的布局,風格和變量的設計。你試圖測試在問題空間上盡可能遠的不同的解決方案,試圖看到更大的山。

對小的變化進行試驗非常非常容易,它很安全并很好說服 HOPPO 。但是,你運行的優化不能超過局部最大值是真正的風險。你可以驅動1或2%的改進,但不會更多。以主頁為例,不是測試不同的副本,而是測試完全不同的按鈕,副本和樣式,這些應該是截然不同的布局。

 

現實生活中的例子

為了提高 PeerIndex 的轉化率,我們做了一系列試驗。第一組試驗的重點是在頁面上移動按鈕。這在轉換率上幾乎沒有提高。

image3

控制組的著陸頁

 

接下來,我們對非常不同的布局進行了試驗,結果轉化率提高了200%。試驗顯示,著陸頁的原始假設,我們需要對人們解釋更多關于 PeerIndex 來讓人們轉化,被證明是錯誤的。通過刪除大部分信息并保持頁面簡潔,我們決定讓注冊更容易。

image4

轉化率提升200%

 

實踐

自建vs購買

常年問題:自建還是購買?你當然可以讓工程師團隊創建A/B測試框架,或使用可用的 SaaS 工具。作為產品經理,我傾向于購買,因為它減少了工程團隊在前端和后端的投入,因為他們不必維護內部系統。此外,我可以在工程發布計劃之外運行測試。

即使使用 SaaS 工具,你也需要得到一些技術上的支持,以集成該工具,并設置你的應用程序,以允許該工具的控制。所需的集成和研發工作量取決于所使用的服務,但通常涉及在網站或應用程序的標題中包含一個 JS 文件。某些工具(例如 Google 網站優化工具,現在是? GA的一部分)需要你標記正在嘗試的模板的某些部分,而其他工具則允許你在瀏覽器中使用所見即所得編輯器。

如果你使用可能不同的動態數據測試完全不同的模板,則需要創建模板,并在網頁加載時選擇模板。在后臺,你可以在控制器中具有模板選擇機制。使用 SaaS 工具,我發現最有效的方法是使用 URL 拆分功能,并讓應用程序根據 URL 參數選擇適當的模板。拆分網址的工作原理是將流量定向到兩個或多個不同的網址。不同之處可能是 URL 參數(例如. ?reg_flow = 1),或者可能是完全不同的網址(例如?http://www.example.com/page_1?跟?http://www.example.com/page_2)。

URLS

URL 1 =?http://www.example.com/index?test=1

URL 2 =?http://www.example.com/index?test=2

 

控制器

……

IF URL_PARAMETER(’index’)== 1 THEN

//do something

ELSE

//do sth else

ENDIF

相同的方法可以用于對不同注冊流程和不同類型功能的行為進行試驗。實施 URL 分割測試需要技術上的支持,因此最好對計劃運行的測試做規劃,以便可以修改工程交付安排。

使用 URL 拆分測試的挑戰是能夠達到正確的目標。如果目標是網頁瀏覽,則很簡單。當目標是一個動作,例如成功完成推文,發送電子郵件或提交表單。一些工具可以立即捕獲這些操作,或提供一個“自定義”目標方法,你可以設置在成功完成目標時觸發。

選一個 SaaS 工具

有多種 SaaS 工具可用,其中3個值得關注的是:

  • Google Website Optimizer
  • VWO
  • Optimizely

上面的這3個工具我都用過,這里有一些快速筆記。

Google網站優化工具

我發現Google網站優化工具對于我正在進行的試驗類型功能不足,并且需要對模板進行大量手動標記,才能運行每個單獨的測試,并且無法用于測試功能。

Optimizely

Optimizely 包括一個 WYSIWYG 編輯器(不能滿足大型網頁的需求)。不幸的是,我發現試驗結果,編輯器和儀表板周圍的導航是混亂的,導致大量的試驗重做。

VWO

我最終使用 Visual Website Optimizer 作為我的主要工具進行試驗,因為它為我提供了支持試驗的工具,我做了一個簡單的試驗創建過程,顯示結果的UI比較清楚和容易瀏覽。

國內的當然推薦吆喝科技 AppAdhoc A/B Testing,除了以上產品都有的優點之外,最大的優點就是全中文界面啦。

 

測試陷阱

在試驗時很容易嘗試捷徑。不幸的是,如果你不小心,快捷方式可以很容易使結果無效,使得從試驗結果得出的結論是有問題的。要確保你遵循科學的方法。

一個常見的快捷方式是不斷變更控制組。為了避免試驗中的觀測誤差,需要試驗的控制組保持不變。

另一個主要問題是瞬時流量,例如來自 PR , PR 帶來的大量瞬時流量,可能不是你的目標流量。因此,你的試驗將被瞬時流量的行為所淹沒,而不是被目標流量,對瞬時流量優化效果的消失跟它的到來一樣快。處理瞬時流量最好是忽略它發生期間的周期,只使用它的任一方的結果。

 

分割是非常重要的

重視細分,因為細分能讓你了解和優化不同的用戶。在錯誤的市場中獲得30%的轉化率沒有意義,這掩蓋了你在目標市場中只有5%的轉化率的事實。

例如,細分可以提供哪些功能,我已經根據國家/地區的分類,對轉化進行了測試。這表明我們的目標市場的轉化率低于整體轉化率,因為其他市場的轉化率高得多,掩蓋了較低的轉化率。我們現在正在規劃測試,目的在于使目標市場的轉化率更高。如果分割還沒有完成,我們永遠不會知道這一點。

分段可以做出各種功能,例如:

  • 瀏覽器
  • 國家
  • URL 參數( utm 代碼)
  • 日期
  • 星期
  • 訪客類型(新訪客與回訪者)
  • 搜索關鍵字
  • 移動設備
  • 操作系統

 

運行和監控試驗

你有你的測試計劃,你已經實施了測試,現在試驗正在運行。

 

試驗需要時間

運行測試需要時間,即使你有很好的流量。主要原因是要實現統計有效性。為了實現統計有效的測試,測試需要運行足夠長的時間,以便有足夠多的人參與試驗。

影響結果統計有效性的另一個行為是流量。即使你有足夠的流量在一天內就能獲得有效的結果,但你的流量在那一天和其他時候一樣嗎?是否受到營銷推廣或公關活動的影響?在選擇運行測試的時間時,必須考慮這些因素。我更喜歡運行一個測試至少一周,以便網站的試驗運行在一周的不同天和一天的不同時間的不同類型的流量。 PR 或營銷推廣可能需要測試運行更長時間,留足夠的時間讓流量恢復正常。

當流量低時,你必須再次運行試驗,以確保你的結果有效。以下是一些在低流量下運行試驗的小技巧。

 

報告

報告只有一個目的,幫你在大量的試驗或產品/開發優先級的變化中確定下一步行動。如果沒有采取行動,報告和試驗就被浪費了,要根據需要從報告中作出結論并采取行動。

報告階段是你得到“為什么”的地方。為什么我得到 x 而不是 y ?這些問題將導致新的試驗,用于繼續循環,試驗的過程。它不應該停止一個試驗或一組試驗。這也是檢查異常結果的點。異常結果是既不證明也不反駁假設,而是一個垂直于被測試的假設,那么超出期望的應該集中在回答為什么。

這方面的一個例子是我們在 PeerIndex 上對國家/地區分類著陸頁進行的測試。假設是不同的位置之間會有差異,試驗證實確實有。異常結果是一個國家的結果是其余的50%。該國與其他國家之間的差異沒有明顯的理由,事實上,它甚至不是一個目標市場。

 

負面結果的重要性

測試的關鍵結果是學習。無論積極還是負面的結果都是無關緊要的,真正重要的是你從測試中學到的東西。負面結果通常比積極結果更重要。負面的結果告訴你,你對用戶的基本了解是錯的。結果是,你可以通過繼續測試發現用戶想要什么。

 

形成閉環

你已經設計了試驗,實施它,并運行了它,現在報告中已經有了結果。下一步是問自己兩個問題:

  • 這些結果對開發優先級意味著什么?以及
  • 為什么我得到這些結果?

第一個問題允許你回顧待開發列表,并根據從試驗獲得的驗證結果調整優先級。這樣,試驗中發現的關鍵指標的改進可以是永久的,并能盡快部署。例如,如果你的試驗產生的轉化率提高了100%,那么你希望盡快實現這一點。

通過詢問“為什么我得到這些結果?”(或相反,“為什么我沒有得到我期望的結果?”),你提出了可以回答它的假設,然后設計試驗來測試。例如,假設你進行了一項試驗,表明來自不同國家的訪客有不同的轉化率,目標市場國家的轉化率較低。問題是“為什么目標市場的轉化率低?”,你提出了假設來測試。

基于結果(更改產品優先級,新試驗)采取的操作應記錄在試驗日志中。這提供了一種跟蹤試驗和最終結果的方法。它還提供了一個方便的軌跡,以跟蹤你如何到達任何特定的試驗。

你不可能用一個試驗回答任何問題。相反,你更有可能通過重復試驗迭代到答案。正在進行的試驗循環是你如何讓你更迅速地發展產品以滿足 KPI 和目標。

 

總結

最終,試驗的目標是實現業務或產品目標。記住這一點,才能做好試驗。然而,忽略了這一點,你運行的短期優化的真正風險就是無法建立一個強大的產品或業務。不是為了測試運行測試或在框架清單中勾選一個框,所有的試驗必須基于實現既定的目標。

你需要能夠對“這個試驗怎么才能符合我們試圖實現的目標?”,應該有一個明確的答案,例如,“我們的目標是增加收入,這需要更多用戶為產品付費。我們想知道主頁上的 CTA 是否能更有效地讓用戶注冊。其中一個測試是強化 CTA 按鈕。這個測試是其中之一 ——評估不同顏色的按鈕。”

試驗將科學過程帶入產品演進,目的是更快地實現目標。即使一開始你只是在一個區域進行試驗(比如落地頁轉化),隨著時間變化,你會在產品的不同部分運行大量的試驗。記住這個過程,并將每個試驗結合成一個目標,它將更容易跟蹤發生了什么,并確保你的試驗正在朝著目標演進你的產品。

 

5321 Views
即刻實踐文章理論 A/B測試 灰度發布 產品優化 免費申請
Please wait...

訂閱我們

對于每位訂閱讀者,每兩周,吆喝科技會為您發送4篇精選文章,可能是最新的A/B測試實踐,也會是你所期待的增長干貨。
qq宠物捕鱼大师 三公棋牌游戏可提现 助赢计划公式怎样更准确 pk10一天稳赚计划群 加拿大蛋蛋28精准预测网站 后二组选复式稳赢方法 北京pk拾是骗局吗 梦幻国际棋牌看牌抢庄 每天更新白菜彩金网站 龙虎和有什么技巧 pk10万能倍投计算器