成長駭客的秘器:AB測試

本文作者為矽谷阿雅,臉書全球上網計畫無線網路產品行銷長。曾任eBay行動拍賣新興市場產品長,麥當勞全球資深數位總監等。西北大學整合行銷傳播碩士,芝加哥大學企管碩士。

阿雅日前分享了「成長行銷經理」的工作,其中提到AB測試是他們的工作之一,很多人問那「AB測試分析師」(AB Testing Analyst)做什麼、測試怎麼做,來跟大家分享一下。

什麼是AB測試?

網站或App在新增或改變功能的時候經常會做AB測試,好知道這些改變對用戶帶來的影響,比如說,eBay行動拍賣的網站廣告原本在頁面的最上方、橫的,我們看了數據,發現用戶往下滑的時候最上方的廣告就被滑掉了,因此決定把廣告改成直的,放在右邊,不論滑到哪一頁都可以看。我們做了AB測試,發現果然直的廣告效果比較好。

又比如說,美國針對百貨Target重新設計了它 iPad App 的首頁,我們認為新的首頁將讓更多人點擊進到產品細節頁面,更容易購買,因此做了AB測試。

另外,除了測試新的網站功能,不少人,像是「成長行銷經理」也會在網站上AB測試的不同的行銷訊息,比如說推播訊息寫「衛生紙本週買一送一」,或是「最新的迪士尼玩具上市」等,甚至同樣的訊息但測試不同的消費分眾。

誰適合做AB測試分析師?

很多人背景都是數據分析師,因為這個工作的兩大重點就是「設計測試」以及「分析結果」。不過因為其實工具都會幫你算好夠不夠樣本數等,不真的需要自己用統計概念來算,所以其實很多人的背景可能是行銷人、產品經理,甚至什麼背景其實都可以。

說到這你或許會覺得「怎麼感覺好像很簡單,阿到底難在哪?」首先,有時候公司會有好多部門都想要做測試,會導致用戶可能在一個測試看到A,另一個測試看到B等,測試師就要負責守門確定沒有污染結果。另外,要是測試結果跟預期的不一樣,測試師通常會扮演數據分析師的角色,看看網站、App上的其他數據來推測可能的原因。

比較好的新功能為什麼一定要測試?

哈!這就說到產品經理的痛處了,每個產品經理都會認為,自己的新功能一定比舊的好,畢竟新功能新設計的初衷通常就是為了改進舊功能的缺點嘛!但殘酷的現實是,結果通常不一定,在矽谷公司,你會驚訝常可以看到AB測試有一半的機率沒辦法驗證假說,也就是說,新的功能、設計、行銷訊息根本不成功。這是矽谷產品經理大家心知肚明但通常不願意說的秘密!

我在eBay就曾經有慘痛的經驗,舊的網站超醜又難用,我們重新設計,漂亮多了,但是AB測試的結果明顯比舊網站差。原因是剛上線的產品通常多少有急著上線的問題(跟寫作業及家裡裝潢一樣,產品的完成總是比計畫的時間要久啊!)、設計細節還沒到位、多圖片的網站通常比較慢、程式碼通常還有bug等的問題,就算新網站或app比舊的好,用戶適應也是需要一些時間,舊網站再難用,舊用戶通常已經自己找到一個用它的方法了。

▲ 改版前的網站。(圖/作者)

新的網站是不是渙然一新?但剛上線的時候測試結果反而比舊網站差。

▲ 改版後的網站。(圖/作者)

既然AB測試這麼棒,幹嘛不什麼都拿來測?

很多時候企業都有商業考量,畢竟大家都相信新的功能一定會帶來某些商業好處(不然一開始就不會做啦!)比如說,網站廣告業績不足,你因此決定多加一個廣告,AB測試需要等一個月,但這個月業績就是沒有達標,就只好先上再說。還有,用戶就這麼多,除非像是臉書這種超大流量的公司,隨便1%可能樣本數就很龐大,一般企業要同時數十個測試又要確保每個測試不被其他測試「污染」是有難度的。

另外,每個測試都是需要工的,要設計測試,標籤流量,品管測試等,通常都需要產品經理、設計師、工程師、品管經理、AB測試分析師的合作,因此在很多測試還有時間成本上需要做些取捨。

優化,而非創新

另外,AB測試也有它帶來的副作用,因為AB測試通常能幫助你「優化」一個產品,但卻可能因此侷限在優化,而非革命性的創新,而且消費者的感覺等很多時候是測不出來的,比如你不收我某種信用卡,對,我還是會乖乖用網站收的卡,但心裡就會不開心。

位在荷蘭的世界知名訂房網站booking.com就以AB測試聞名,但聽說多年來也因此趨於保守,你想想,如果只靠AB測試,他們可能永遠沒辦法成為airbnb。

▲ booking.com 多年來還是長差不多。(圖/作者)

在booking.com還在以AB測試調整哪個按鈕要大一點的時候,airbnb已經設計完全不同的網站和app了。

▲ Airbnb在商業模式及網站設計上,相較之下,明顯有革命性的創新。(圖/作者)

第一步:設定假說(hypothesis)

通常做測試時會先定義一個假說,例如「有看到邀請朋友訊息的人分享數比沒看到的多」,測試的目的則是證明或推翻假說。是不是感覺很像回到國中理化課,酷吧!

工具

大科技公司像是谷歌、臉書有自己建造的工具,其他公司則會用AB測試軟體,Optimizely, Adobe, Google等都是常見的工具。這些工具都很不錯,不過我認為Optimizely和Adobe價格偏高,Optimizely和谷歌則是服務偏差。當然也有很多小一點的公司可以考慮。這些工具會幫助你分導流量到A或B等不同的用戶經驗,也會自動幫你計算樣本數是否夠多以達到統計上的可信賴及信心水平(Confidence Level)。簡單簡單!

AB分別要多少%?

依商業目標的需求(比如說本月業績太差,很需要大家都看到行銷訊息。或是用戶很多,市場競爭很激烈,避免用戶抱怨,直到確定功能有效以前只給一丁點的人看)以及照網站、App的流量決定看到AB測試的用戶數量(比如說eBay首頁流量大,所以每次測試可能只需要1%的用戶看到新版就可以達到統計信賴指標(Statistically Reliable)。但比如說你測試eBay分類廣告墨西哥市場裡,有付費買高級會員的人,可能流量不大,需要50%的流量才能在一個月內看到結果。)

AB測試要多久?

跟上一個問題一樣,要看你的網站流量和測試的樣本數,比如說你開50%的流量給B,可能只要一週,如果你只開10%,可能就要好幾個禮拜才會有足夠的樣本數。工具裡頭也會告訴你多少流量要測多久。Easy!

過去我的經驗經常以10%流量、兩個禮拜為基本設定,再根據功能做調整,然後一旦結果好、又有足夠樣本數,我們則調高讓更多的用戶看到B版本。

過來人說...

值得注意的小秘訣是,我們不一定會把全部不是B的用戶當成A,比如說,我們可能會50%的用戶在測試裡,其中25%看原本的版本A、25%看新版本B。當然,不在測試裡的那50%用戶也會看到A,也就是說全部會有75%看到A。但為什麼他們不在測試裡?原因是為了做測試,再測試裡的流量都要經過AB測試軟體的標籤(tag),這有時候是會有風險的,比如說測試軟體可能會壞掉、可能會讓頁面變慢等,尤其是在網路很慢的國家,小小的速度改變都可能讓用戶離開網站。因此,保留一部分流量不在測試裡也是常見的作法。另外,我們也會不止用AB,有時候可能也會有ABCD等多個版本。

AB測試聽起來很厲害,但其實真的不會太難,有興趣的人看看網路上AB測試公司的demo,不管你是行銷人、數據分析師、工程師、產品經理、業務,挑個東西來測測看吧!

-----

★ 責任編輯:黛比
★ 延伸閱讀:好書試讀:成長駭客Growth Hacker:未來十年最被需要的新型人才
★ 推薦活動:【網站分析實戰工作坊】

相關文章