從勇者為王到精益創業,一代又一代的企業在這個瞬息萬變的商業世界中追尋著成長的脈動與規律。大到國外的 Google、 Netflix 、亞馬遜(Amazon, AMZN-US),國內的字節跳動、BAT(百度、阿里巴巴和騰訊),小到十個人的創業公司、一個人的產品思考,所有人都渴望撥開重重迷霧、錨定真正的成長引擎。
在眾多的成長方法中, A/B 測試是最能體現、代表數據驅動理念的產品。為了進一步釐清這一成長方法的來龍去脈、可行性與適用範圍、真正價值與常見誤解,「深響」在充分的國內外案頭研究基礎上,訪談到多位一線操盤手,沉澱出當下市場對於 A/B 測試、數據驅動的主流理解與實際落地應用的情況。
故事緣起
故事要從 18 世紀說起。工業革命、啟蒙運動,人類的底層邏輯被刷新,科學的研究方法與成果掀起層層浪潮,一些困擾多年的難題被解開。在歐洲,以航海為生命的維京後代們繼續著他們的遠征,但不幸的是,長期遠洋航行的水手船員在惡劣的海上環境中常被壞血病困擾。
一邊是經濟社會的蓬勃發展,對於更多資源的飢渴需求,一邊則是美國上市的勇士們被壞血病折戟,嚴重的時候超過半數船員再也無法回到起航時的港口。幸運的是,英國海軍醫生詹姆斯.林德發現了一種神奇的巧合——食譜中有柑橘類的水果的船員患壞血病的機率更低,船員的救命藥難道就是再普通不過的青檸(lime)嗎?
質疑醫生的人很多。他選擇用一種在今天看來已經非常普通且廣泛運用在網路的方法來證明自己的猜想—— A/B 測試。他把患病的 12 名船員們分成 6 組,確保病人們的基本食物一樣,所處環境也相同,唯一的變量是,給每組開出了不同的療法:一組船員的飲食中加入青檸、一組加入橘子、一組加蘋果、一組加醋、一組加酏劑、一組加海水。結果顯而易見,攝入橘子和青檸的兩組很快就痊癒了。
這是兩百多年前的壞血病實驗,其採納的 A/B 測試已經成為醫學領域最為常見的實驗方法。而如今, A/B 測試也已在醫學之外的領域開花結果,成為了包括矽谷在內,全球網路與商業的方法圭臬——在多種因素都對實驗結果有影響時,保證其他條件相同,來證明某一變量對結果的確切影響。 A/B 測試以小成本快速試錯,用客觀數據結果糾偏人們的主觀臆斷,讓產品與生意盡可能地地科學成長。
或許有人會問,這不就是簡單的對照組實驗嗎?但千萬別小看 A/B 測試,它不只是粗暴地分組比較,而是基於實驗對象的精細評測,每一個維度的篩選、每一個差異刺激的設計,都需要嚴謹的依據和判斷。在這個資訊爆炸、場景碎片化的多樣化時代,變量無處不在,如何做好一個 A/B 測試,測之有因,測其所得,並不是件簡單的事。
與此同時,商業社會空前繁盛,競爭激烈到每一個罅隙的成長都必須爭取,生意對於失敗的容錯率非常低。而 A/B 測試便是那個科學分析、盡可能地規避風險、敏捷成長的利器。
從 1990 年代後期開始,科技巨頭就開始借助 A/B 測試來確定最優方案,並逐漸形成自己的測試平台和體系。今天,包括 Google、Facebook、亞馬遜在內的大公司每年都進行數千到數万次實驗,新一代在數據驅動思維里成長起來的新創企業也見識到了 A/B 測試帶來的成長魔力。
為 Google 帶來巨額營收
網路產業的 A/B 測試本質上是一種 ” 先驗 ” 的實驗體系,針對某一需要改進的功能、頁面或是產品,提供兩種或以上的方案,合理分配流量,將不同方案發布給不同用戶。在運作一段時間後,結合各項指標和科學的統計方法,對比實驗數據做出決策,將最優方案更新給全量用戶。
通常的流程是,確定目標、建立實驗假設、設定指標評估影響、設計及開發實驗方案、確定測試時長和分流方案等、採集和分析數據、最後進行評估得出結論。透過科學的實驗設置,測試不僅可以對比出哪種方案更好,還能預測性地透過一些指標(比如用戶的訪問時間、留存度、下單率等),量化最優方案好多少。
Google 是網路界 A/B 測試的先驅。早在 2000 年,Google 工程師就進行了他們的第一次 A/B 測試,用於確定搜尋結果頁面上展示多少條對用戶最友好。這次嘗試稱不上成功。世紀之交,緩慢的網頁加載速度未能允許實驗達到預期。
但是 Google 成為了 A/B 測試的忠實擁護者,僅僅在 2011 年一年時間裡,這家搜尋巨頭就進行了 7,000 多次的測試。當 Google 在 Gmail 裡推出廣告的時候,團隊想知道:有沒有一種理想的藍色能夠更吸引用戶點擊鏈接?為此,他們對 41 種藍色——從藍中帶綠到綠中帶藍——進行了 A/B 測試。結果是,一種略帶紫調的藍色比其他藍色更能促進點擊率。這誰能猜到呢?而這個微小到用戶也許根本注意不到的細節改變,卻為公司帶來了每年 2 億美元的額外廣告收入。
現在,Google 每個月都會上線幾百個大大小小的 A/B 測試。這些實驗,每年直接給公司帶來了超過 10 億美元的增收。這種提供決策依據的方法充分彰顯了網路 “ 數據驅動業務成長 ” 的理念。很多時候, A/B 測試被用來決定非常細微的功能變化。例如,是否在新標籤頁中打開搜尋結果——雖然這一功能可以在設置中自定義或者透過快捷鍵實現,但是透過 A/B 測試,Google 發現將切換按鈕在搜尋框下突出顯示時,用戶體驗更好。而現在許多用戶已經習慣的 “ 暗黑模式 ” 其實也經歷了幾番測試。
▲Google 測試突出顯示 “ 在新標籤頁中打開 ”
雖然乍看優化的只是細枝末節,但是基於Google龐大的用戶量,每個不起眼的改動能產生巨大的影響。A/B 測試貫穿了 Google 的產品目錄和公司整體運作,有時候,測試會在更大的範圍和更長的時間跨度裡進行。比如對於即時通訊的解決方案,Google看上去非常 “ 猶豫不決 ” ,推出過Google Talk、Google Chat、Huddle、Hangouts等。
Google 希望透過測試內部的多個解決方案,找到優勝者,先一步贏得市場,而不是坐以待斃,等外部的競爭者找到開啟成長的密鑰再加以複製。因此,對於 Google 來說, A/B 測試是不可或缺的。這是公司用來感知用戶的最佳途徑;做產品決策的科學思路;也是最大化廣告效果,增加收入的策略。
值得注意的是,從自己摸索 A/B 測試方法,到形成行之有效的測試體系,Google 還將 A/B 測試的能力開放給外部客戶。比如 Google 的 Google Optimize,提供了易用的 A/B 測試工具,降低了開發者和廣告主做測試的門檻,並可以關聯 Google Analytics 進行數據分析。
另一案例是,音樂串流媒體 Spotify(Spotify, SPOT-US)在海外擴張時,想為不同區域的聽眾差異化著陸頁,但在研發上要耗費巨大成本。在德國市場,它使用 Optimize 為對聽書功能(Audiobook)感興趣的用戶定制了一個著陸頁。結果是,新頁面相比原版本,付費用戶率提升了 24% 。最終,Spotify 在全球應用了這一設計。開放測試能力,這一方面是企業價值觀的體現,Google 致力於拓展良性的生態環境,讓夥伴受益從而優化整個商業環境;另一方面也說明 A/B 測試本身經過幾十年的發展,已經逐漸成熟為一門獨立的學問了。
風靡矽谷
矽谷沒有秘密, A/B 測試也不是 Google 的專屬。在 “ 精益創業 ” 思想浪潮的席捲下,矽谷的諸多巨頭都用上了 A/B 測試這一成長利器,並且將其傳道。串流媒體巨頭 Netflix 就是 A/B 測試的信奉者之一,並且樂此不疲地在自己的科技部落格裡分享其 A/B 測試實踐中的方法和經驗。
“ 如果消費者在 90 秒內沒找到可觀看的內容,他們就會離開。 ” Netflix 在部落格裡強調。為了在這短短的 90 秒內抓住用戶,他們絞盡腦汁。其在 UI 布局設計、個性化主頁、播放功能等等環節都會進行 A/B 測試,因為一個簡單的標題或者圖片改動就能讓觀看量得到 20% – 30% 的成長。據「深響」了解,國內的一些影片網站也採取了類似的做法。
Netflix 早期進行的經典測試之一,是關於影片或劇集的展示圖對點擊率的影響。《人小志氣高》(The Short Game)是一部講述小學生在高爾夫球場上競技的影片。 Netflix 對不同用戶組推送了不同的展示海報,並分析了幾個關鍵指標,包括點擊率、總播放時長、短時播放的比例、觀看的內容比例等等,最終發現下圖中間(Cell 2)的海報勝出了,實驗用戶組平均的點擊率比預設組高 14% 。
▲Cell 2 海報的播放量較原來版本提升了 14% / 來源: Netflix 科技部落格
這是一個訊號——展示海報對用戶行為可以產生影響。證實這個假設之後, Netflix 繼續進行更複雜、更多維度的測試去優化用戶界面。A/B 測試是一個統計學與數學的實驗,解構每一個元素,如何盡量撇除其他因素的影響,從一次次測驗中歸納出關於用戶行為的規律。
Netflix 的技術人員在部落格裡寫到,他們透過實驗發現,具有強表現力的面孔比平靜的更吸引用戶眼球;更具辨識度或者兩極化的人物形象表現通常更好;反派人物能得到較高點擊率;封面包含 3 個及以上人的時候點擊率又會下降……而這些實驗結果也並非絕對的,不同地區的觀眾對圖像的反應會產生差異,這要求顆粒度更細的實驗和營運。
▲強表現力的海報(右下)效果更好/ 來源: Netflix 科技部落格
網路巨頭們在 A/B 測試的普及進程中起到了標杆性的作用。而這種科學精神在 “ 巨頭 ” 們的推動下已經滲透了整個網路。在 “ 效率第一 ” 的矽谷,產品決策的流程化在加速, A/B 測試是重要一環。用戶們對於 App 的新功能感到興奮,但並不知道,在最終呈現前,有多少版本在實驗中落敗。
Snapchat(Sna, SNAP-US)的崛起讓社交網路大哥 Facebook 感到恐慌。圍繞 Snapchat 獨特的 “ 閱後即焚 ” 和 “ 快拍 ” 功能,Facebook 在旗下的不同社交平台上展開了一系列測試。一次次失敗後,允許用戶發布 24 小時限時內容的 “ 快拍 ” (Stories)的功能現身在 Instagram 上,為這個已略顯疲態的圖片社交產品注入新鮮感。為了更高效率地在行動端進行 A/B 測試,Facebook 開發了 Airlock 測試框架,助力內部開發人員。
其實, A/B 測試不僅有益於自身產品的優化,也可賦能生態內的客戶,實現雙贏,何樂而不為?我們看到,除了上文提到的 Google,亞馬遜和 Facebook 也把一些 A/B 測試工具開放給商家和廣告主。
比如亞馬遜,這家屢次登頂全球市值巔峰的公司就有多種適配的 A/B 測試工具,讓商家去檢驗怎樣的商品名稱和展示頁可以有效提升品牌度和銷售量。而 Facebook 作為廣告行銷的重要平台,也完善了適用於各個場景的 A/B 測試工具,讓廣告主和品牌來評估各項方案,實現投放效益最大化。
▲亞馬遜商家用測試工具可以便捷地創造不同的商品展示頁
不止是巨頭
A/B 測試不只是網路巨頭的殺手鐧,它也是遊戲、媒體、金融等產業的常客。在矽谷,無論公司大小都已意識到 A/B 測試對於決策的重要性。2013 年,著名的互動軟體娛樂公司藝電(Electronic Arts)上線《模擬市民 5》後兩週就賣出了 110 萬份。其中游戲 50% 的銷售都來自於網路上下載,傲人的成績歸功於一個近乎完美的 A/B 測試。
藝電為遊戲銷售頁面設計了兩個方案。一個版本是,促銷的資訊顯示在預訂的頁面 banner 上,讓購買者一目了然;另一個方案是把促銷資訊刪了。實驗結果是沒有促銷資訊的版本相較前者的轉化率提升了 43.4% 。最終他們採用了這一方案,實現了上述銷量。
這個 A/B 測試的結果甚至是有點 “ 反常識 ” 的,依據人的經驗,折扣資訊往往可以刺激消費者的購買欲,但是透過實驗,顯然這並不適用於《模擬城市 5 》的目標群體。
▲有促銷資訊的版本(上)與沒有促銷資訊的版本(下)
媒體產業也常用 A/B 測試的方式對標題進行實驗,來吸引網路時代越來越不耐心的讀者們。《紐約時報》採取 A/B 測試,在其網站上為同一文章展示不同標題,在一些案例中,一個好標題可提升成倍的閱讀量。比如,《紐約時報》編輯寫到, “ 巴爾的摩的反省,弗雷迪.格雷週年祭 ” (Soul-Searching in Baltimore, a Year After Freddie Gray’s Death)和 “ 弗雷迪.格雷死亡後的巴爾的摩:’心境已變’ ” (Baltimore After Freddie Gray: The ‘Mind-Set Has Changed’)相比,後一標題的閱讀量得到 1677% 的提升。
有意思的是, A/B 測試還收穫了政客們的青睞。2008 年,歐巴馬團隊競選團隊為募捐網站設計了 4 種按鈕和 6 個不同的圖像。對 24 種不同組合,團隊進行了數據跟踪,最終下圖右上角的界面獲勝,註冊率相比原始界面提高了 40.6% 。這 40.6% 的新增用戶直接帶來了額外的近 6000 萬美元的捐款。
這次 A/B 測試的成功,促使競選團隊的數據分析總監丹.西羅克(Dan Siroker)在 2009 年創立了 Optimizely,一個 A/B 測試工具平台,幫助沒有技術背景的用戶測試不同版本的網站優化體驗。
▲右上角的界面是最後的優勝者
我們試圖尋找美國商業大亨們抵觸 A/B 測試的案例,但抱歉的是,這種科學思路其實是西方社會普遍推崇的思維方式, “ 你不需要跟他們解釋太多,因為 A/B 測試根上的理念就是他們小時候天天學的邏輯、實驗、critical thinking(辯證思維)。 ” 一位在矽谷工作的華人工程師告訴「深響」。
幾百年來, A/B 測試的核心原理始終未變。作為 “ 數據驅動 ” 、 “ 科學精神 ” 的完美體現,更作為一種前置驗證的手段, A/B 測試幫助企業驗證了策略收益,避免錯誤策略所帶來的負面影響,其所帶來的收益將遠大於企業所付出的成本。
在這樣的共識與汗牛充棟的成功案例下, A/B 測試得到矽谷巨頭們的擁躉,成為各行各業大大小小企業、產品的成長利器、工具標配。當然,暖風吹過西海岸,這把利器也正在大洋彼岸的中國發光發熱,並且逐步展現出當地化的特色和新意。
《虎嗅網》授權轉載
【延伸閱讀】