搜尋資料大數據揭露真實人性

在這個數位時代，我們所有人每天都會產生大量的資料點。我們搜尋的內容，我們是怎麼搜尋的，我們購買的東西，我們閱讀的資訊，我們喜歡什麼，不喜歡什麼，我們會選擇和什麼樣的人交往等等這些，都會形成一條可以量化、篩選和批量分析的資料流程，然後與其他人的資料彙集起來，就能反映資料背後隱藏的趨勢，有時候有些事情甚至連我們自己也意識不到。

這些資料可能為我們的社會提供了一種更好的方式，來真正瞭解人們的本質，作家塞斯·斯蒂芬斯–大衛維茨(Seth Stephens-Davidowitz)在他的新書《人人都在說謊：大數據、新資料和互聯網告訴我們自己是誰？(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are)》中提出了這一理論供人們思考。

斯蒂芬斯–大衛維茨曾是 Google 的一位資料科學家，如今在華頓商學院擔任客座教授。近期他也來到 “華頓知識線上”節目，與我們探討應該以怎樣的方式分析大數據才能揭示人們的政治觀點、健康狀況和偏見等。

以下為編輯後的訪談記錄。

華頓知識線上：數位足跡 (digital footprints) 可以在很大程度上反映我們的個人特徵，這一點毋庸置疑，但是我覺得在某種程度上，人們還是不相信能夠從這些資料中收集到那麼多資訊。

塞斯·斯蒂芬斯–大衛維茨：是的。有些人對資料的看法還很傳統。他們覺得資料就像一個代表性調查：調查的問題很明確，問題後面有可以打勾的方框，人們的答案也很明確。我覺得不走尋常路的網際網路世界讓他們覺得有些不自在，在這個世界裡資料沒有一定的結構，跟他們習慣看到的資料也有些區別。

華頓知識線上：是不是有些人還覺得自己的資料安全度比實際情況要高？

斯蒂芬斯–大衛維茨：我覺得人們對大數據的力量肯定還有疑慮。因為資料的預測性太強了，企業可以利用資料來支配人力。我在書中就談到了這一點。舉一個例子，如果你要申請貸款，企業可以根據你在貸款申請書上的文字描述，就能確定你能否按時還款。

比如，如果你在貸款請求中用了“上帝”這個字眼，你逾期還款的可能性比起不用這個詞的人是 2.2 倍，你不還款的可能性也是 2.2 倍。所以如果有些人在貸款申請結尾寫了“上帝保佑你”，這樣寫就挺嚇人的，企業就不會給他們貸款，這樣企業就能把資金節省下來。

華頓知識線上：在整本書中，你談到了我們這個社會所面臨的一些較大的問題，比如種族主義和虐待兒童。在這些領域中存在著各種各樣的資料點，它們不是偏向這一方，就是偏向那一方。

斯蒂芬斯–大衛維茨：是的，現在網路上充斥著各種蕪雜的資訊。有些特定的資訊源，比如 Google ，是我比較側重的。人們有時候真的很誠實，有些事情他們可能不會告訴任何人，但卻會告訴 Google 。所以當涉及到你剛才提到的這些非常重要的領域，我們真的能對自己的本質有新的發現。

華頓知識線上：你在書中談到了一個領域：性。

斯蒂芬斯–大衛維茨：我想說大數據實在太強大了，它把我變成了一個性學專家，而性並不是我所擅長的專業領域。關於性顯然有許多隱藏的內容，因為這是一個讓人很難為情的禁忌話題。我覺得透過 Google 搜尋，我們就能看到人性百態。

華頓知識線上：你也談到了種族主義，談到了種族主義如何真正地浮出水面，不是在 2008 年總統競選期間，而是在歐巴馬總統當選後立刻就出現了。

斯蒂芬斯–大衛維茨：這項資料中包含了一個令人不安的因素。一般來說，如果人們說謊只是為了面子，那麼我們對人性的看法就會變得過於樂觀。但是如果我們知道真相的話，其實在很多領域我們都能看到人類的陰暗面，種族主義只是其中之一。

真的很令人震驚。我從這項資料中發現的最令人驚訝的一個事實就是，人們在搜尋中所表現出來的種族主義傾向程度令人震驚，人們主要搜尋的是取笑非裔美國人的笑話。是的，這是一個很大的話題，歐巴馬當選後，關於他的搜尋非常令人難堪。

華頓知識線上：人們長期以來持有這樣一種觀點，種族主義更多地存在於南方，但你的資料顯示並非如此。

斯蒂芬斯–大衛維茨：是的，如果你做公開調查或者從傳統觀念出發的話，種族主義的確被看做是南方的問題。但我覺得這可能是因為，在南方人們沒有很大必要來隱藏種族主義。如果你看看 Google 的搜尋資料，穀歌的資料更真實，你會看到很多種族主義最嚴重的地區其實在北方，比如賓州、東俄亥俄州、紐約北部和密西根工業區。如今劃分種族主義真正的界限不是南方和北方，而是東部和西部。

華頓知識線上：如果人們或企業能以一種更加合理和有效的方式來使用這些資料，你覺得這會給國家和社會帶來哪些重要的影響？

斯蒂芬斯–大衛維茨：這要分為積極影響和消極影響，我不知道哪一個會成為現實。消極的情況就是企業會利用這些資料來支配人，讓他們花更多自己還沒賺到口袋裡的錢，或者在他們的網站上花更多時間，而事實上他們並不需要登入這些網站。積極的情況就是我們可以利用資料來瞭解一些非常重要的領域，例如健康、種族主義、性取向等，從中學習如何改善我們這個社會。

華頓知識線上：健康這個角度非常有趣。我們能夠從資料中獲得資訊，這些資訊又會說明我們治癒疾病，或者採取更有效的預防措施，在疾病變得更糟之前遏制它的發展，這些都能對這個國家的人民和醫療保險經濟產生重大影響。

斯蒂芬斯–大衛維茨：是的。在我最喜歡的一項研究中，他們利用搜尋資料，尋找那些曾經查找過“剛剛診斷為胰腺癌”的人。你知道，當人們搜尋這些內容的話，他們多半剛剛被確診為胰腺癌。你把這些人和那些從未被診斷為胰腺癌的人比較，研究之前幾個月他們都搜尋了哪些症狀。然後研究人員發現了一些極其微妙的規律，這些就是一個人最終是否會被確診為胰腺癌的指示因素。

例如，如果你搜尋“消化不良”加“肚子疼”，這就是胰腺癌的一個危險標誌。如果你只搜尋“消化不良”，這就不是一個危險信號。這些規律真的極其微妙，如果沒有龐大的資料集根本不能發現，它幾乎預示著一種新型藥物的誕生。

華頓知識線上：你的書中也提到了另一個可能徹底改變大數據和我們對大數據的理解的現象， Google 趨勢 (Google Trends) 。

斯蒂芬斯–大衛維茨：是的，這是個很有趣的現象。 Google 趨勢可以向你展示人們在哪裡搜尋不同的術語，他們經常在哪些地方搜尋，透過這些你就可以知道長期以來人們是如何搜尋的。但 Google 趨勢剛開始出現時，人們並沒把它當回事。它並沒有被看作一個學術性的資訊來源，而是一個對 Google 來說可能更加有趣的公關資訊來源。

你可以隨便玩玩，瞭解現在流行哪些趨勢，哪些名人最受歡迎。但是隨著瞭解的資訊越來越多，我們知道 Google 趨勢並不是一個玩笑。就像我說的，它可能是有史以來收集到的最重要的人類心理資料集，對研究者來說這也絕對是一個重要的研究工具。

華頓知識線上：但也有很多研究聲稱所謂的消費者調查資料可能並沒有人們相信的那樣準確。

斯蒂芬斯–大衛維茨：是的，我覺得調查本身也有很大的漏洞。我越看這些調查，心裡的疑問就越大，哪怕只是一些很小的事情。最近我看了一些關於潛在汽車購買行為和實際汽車購買的調查資料，它們根本就不相符。人們說他們會買車，但實際上沒買，或者他們沒說自己要買車，但實際上卻買了。所以我認為這些調查的價值被大大高估了，而且隨著新的網際網路資料變得越來越可用，它們在未來的作用也會大大降低。

華頓知識線上：這也就是為什麼很多企業越來越看重資料分析，希望透過資料更透徹地瞭解消費者的心理，對嗎？

斯蒂芬斯–大衛維茨：是的，我覺得你在面對這些資料的時候也必須小心。針對每個資料來源，你都要思考：這個資料來源是什麼？人們在向我提供這項資料的時候，他們的動機是什麼？我覺得有很多人，不管什麼時候看到數位或資料，他們都會說，“嗯，這些資料是可信的”。但很多資料來源都是垃圾，原諒我的用詞。很多資料真的不可靠，但也有很多資料十分可靠。人們點擊的，購買的，搜尋的，這些資料與很多其他資料來源相比會更有價值。

華頓知識線上：回到政治領域，你在書中提到這方面的資料和網際網路上的趨勢的確顯示川普會在總統選舉中勝出，不僅是共和黨初選，還有大選，對嗎？

斯蒂芬斯–大衛維茨：我覺得肯定有跡可尋，但是不好回答。人們常常向我提出這樣的問題，“你能透過 Google 搜尋來預測選舉嗎？”這有點難，因為 Google 搜尋只有四次選舉資料，要預測選舉規律挺難的。

但我覺得在四到八年內，我們就可以利用這些資料來準確預測選舉。我在書中已經提到了，在選舉之前我就已經掌握一些線索，川普將會贏得這場選舉。有幾件事情提醒了我。首先，根據人們在選舉前是否搜尋“如何投票”或“在哪裡投票”，你就知道他們是不是真的會去投票。別信人們在調查時說的話，他們說自己會投票，但其實不然。每個人都說自己會去投票，但很多人並沒有去。資料顯示非裔美國人的投票人數將會比之前的選舉少很多，這對希拉蕊非常不利。

還有一個我覺得非常有趣的微妙線索：從人們搜尋候選人的順序，你也可以知道他們會怎麼投票。如果人們搜“川普/柯林頓票數”，他們就很可能給特朗普投票。如果人們搜“柯林頓/川普票數”，則很可能會給柯林頓投票。在中西部的某些關鍵州有很多人搜尋川普/柯林頓票數。

華頓知識線上：如果只搜尋柯林頓的話，這有沒有什麼含義，不管有沒有包括川普？

斯蒂芬斯–大衛維茨：沒有，我覺得只搜尋柯林頓的話沒什麼意義，你搜尋她可能是因為你愛她，也可能是你恨她。你搜尋川普也可能是因為你愛他，或者你恨他，這不能說明什麼。必須有些更微妙的意味。但是你搜尋候選人的順序的確可以起到預測的作用。它甚至可以說明人們到底會支援哪個候選人，即使人們自己都沒意識到，因為他們可能覺得自己還沒決定，但是如果他們搜尋過“川普/柯林頓辯論”“川普/柯林頓票數”“川普/柯林頓選舉”，他們很有可能給特朗普投票。

華頓知識線上：你是否覺得我們正在邁向一個點，到時候人們將會對資料有著更好的認識和理解？因為如果說我們根本沒有真正瞭解這些資料，其實也沒什麼錯。也許想要掌握這些資料，的確需要經歷一個漸進的過程。

斯蒂芬斯–大衛維茨：我覺得我們會很快到達那個點，而且不需要太多的人。因為一開始說到你可以透過人們在網際網路上的行為來瞭解這個人，大家都覺得挺荒謬的，這個話題並沒有深入學術研究領域，雖然應該如此。但是人們對它的研究肯定越來越多，這個領域裡的方法論也越來越多。我們真的很接近了，而且我們已經有了一定的超越，不再只是覺得“這挺酷的”，而是透過這些資料真正地瞭解我們是誰。

華頓知識線上：所以這對美國經濟來說，會成為一個成長領域嗎？那些會分析資料，瞭解如何利用資料來真正影響企業和人們的人才會變得搶手嗎？

斯蒂芬斯–大衛維茨：肯定會的。但我覺得這種趨勢比人們想像的還要隱密。在我的華頓商學院課堂上這個問題經常出現。當你思考“大數據”的時候，你覺得這是一個技術性非常強的事物，裡面除了資料還是資料，是那些左腦發達的書呆子的專利。它肯定屬於技術領域，這一點我承認，但它也是一個出人意料的創意過程。

你要知道問什麼問題，知道如何從資料中挖掘主旨資訊。你不能教別人怎麼怎麼做，它就像一門藝術，需要你慢慢學習和掌握。而且我也不覺得你只要找個資料科學家來解決這個問題就完事了，沒那麼簡單。它要複雜得多。

華頓知識線上：這讓我覺得在未來幾十年裡，我們將會看到越來越多的組織與資料科學家以及各種各樣的商業部門建立合作關係，努力掌握資料的意義和用途，用它來解決世界上的一些大難題，比如水資源的獲取，或者對抗疾病。

斯蒂芬斯–大衛維茨：這種想法真的很讓人振奮，資料蘊含的各種可能性讓人心馳神往，尤其是在一些大的領域。因為這些新資料是存在的，它們是可靠的，利用它來探索大的問題，樹立遠大的志向也是說得通的。如果用大數據來解決小問題就沒什麼意義了。

華頓知識線上：如果人們能夠稍微再瞭解一些大數據會怎樣呢？我們探討了很多關於資料如何影響人們和企業的話題。未來的人們是否能夠更好地理解資料？

斯蒂芬斯–大衛維茨：我覺得可以。資料通常比我們更瞭解自己。比如Netflix剛剛成立時問人們，“接下來幾天你們將會觀看哪些視訊？我們知道你們現在在看什麼，但是這個週末呢？你們想看什麼？等到週末快來的時候我們就會提醒你。”當你問的時候，人們說“我會看紀錄片”或者“我會看法國先鋒派電影”。

週五的時候，你把那些片子排在列表裡，人們卻會根本視而不見，繼續看他們經常看的低俗喜劇或愛情片。所以 Netflix 了解，他們也應該忽略人們說的話，轉而關注人們真正看了什麼，然後讓演算法來說話。

當說到我們以後要做什麼的時候，我們總會做些糟糕的預測。幾乎所有人的態度都太過積極。我覺得資料可以讓我們更加腳踏實地。

華頓知識線上：這也可以幫助我們更清晰地瞭解自己的國家和中國、法國或德國比起來有哪些區別。當你從全球視角著眼思考這個問題時，不論是在商業界，還是政治領域，或者各種各樣的前線領域，都會產生相對應的影響。

斯蒂芬斯–大衛維茨：那是肯定的。比較不同國家的差別是件很有趣的事情，這些都可以在資料中反映出來。當然，從商業角度來看，某些國家的資料就非常糟糕了。比如奈及利亞，她曾經是非洲最大的經濟體，某次他們意識到自己國家的 GDP 估值有某些缺陷，然後一夜間把估值改變了90%。所以某些國家的傳統資料非常糟糕。而那些新出現的新資料可以大大提高我們對這些國家的認識。

我還提到了夜晚燈光資料，它可以根據晚上有多少燈光被點亮來衡量一國的經濟。我也提到了Premise公司，這家公司的主要活動就是拍攝發展中國家的經濟活動圖片，透過這些圖片也能估計國家的通貨膨脹率、利率還有很多其他資料。

華頓知識線上：改變這些因素的潛力是巨大的。它們似乎能夠為你提供更好的預測工具，用於促進全球各個經濟體的經濟成長或避免風險。

斯蒂芬斯–大衛維茨：是的，我覺得我是一個非常憤世嫉俗和多疑 (cynical and skeptical) 的人，所以當我聽到“大數據”這個詞語，或者其他流行語時，我就覺得“這也太荒謬了吧。它也就是曇花一現，只能風靡一時”。但是我研究大數據已經有五年了，我跟這個領域裡的很多人都交談過。我還是常常為自己的發現感到震驚不已。大數據不是一時的風尚。它真的掀起了一場革命，改變了我們對人和對這個世界的認識和理解。

華頓知識線上：你說自己是一個憤世嫉俗的人，但你的生活又在資料中。所以說真的，資料就是真相，對嗎？

斯蒂芬斯–大衛維茨：是的，我覺得從某種程度上來說，資料肯定了我的懷疑，你不能相信別人告訴你的事情。在很多傳統資料來源中，人們給你這個資料都是有一定驅動因素的。但是如果你知道哪些資料是正確的，你就可以從中學習，我對這一點毫不懷疑。

華頓知識線上：現在你每天都沉浸在資料裡。我的意思是，現在這已經是一個開放的領域了，裡面包含了各種各樣的資料，還有任何你想要改變的事情。你可以從一個企業到另一個企業，每天不停地收集資料，對嗎？

斯蒂芬斯–大衛維茨：是的。我在華頓商學院的課程結束時，組織了一個小組演示，我給他們的話題非常寬泛。我說，“想像一個教育領域的新企業，或者健康領域的新企業，或者政治領域的新企業，如何利用新資料和大數據工具來說明你實現企業發展。”在每場演示結束時，所有學生都提出了這個問題，“為什麼這不存在？這說不通，應該存在的。”通常情況下，要想得出新的點子是很困難的，因為聰明的人窮盡一生都在尋找那些應該存在的、人們希望擁有的事物。但我覺得有了大數據，要想在一個大領域找到一個又新又好的點子將會是一件非常容易的事情。

華頓知識線上：所以你覺得前景是積極的，對嗎？你接觸的都是新時代的學生，他們將會步入社會。他們知道這些資料點的重要性，他們也會跟我們一起繼續建設和發展這些資料。

斯蒂芬斯–大衛維茨：這是一件非常激動人心的事情。當然還有一個擔憂，那就是道德問題。企業有時候發展得太過強大，就會壓榨消費者的剩餘價值，因為他們比消費者更瞭解消費者。對我來說，這無疑是一個巨大的擔憂。

華頓知識線上：你如何防止這種情況？

斯蒂芬斯–大衛維茨：這需要做很多工作。我覺得法律和道德領域的很多人都沒有意識到大數據對某些部門的革新究竟有多徹底。總的來說，我喜歡這樣想，萬事萬物都是相互關聯的，沒有0.000關聯這一說。所以你做的每一件事情都預示著你做的其他事情。從傳統角度來看，企業做這些預測時通常只有三個或者四五個變數。但如今，他們基本上掌握了每個人的所有資訊，然後用這些資訊來預測。所以這是一個非常強大的工具。

《K@W》授權轉載

【延伸閱讀】

週餘

篇

搜尋資料大數據 揭露真實人性