你今天在社交媒體上分享了什麼呢?評論昨晚的選舉結果?提到你之後要去健身房?對在醫院裡的朋友表示同情?描述你最喜歡的漢堡餐?還是展示了你女兒單獨跳爵士舞的照片?
那麼,這些帖子揭示了你怎樣的健康狀況及嚴重的疾病風險呢?
上面這個問題看上去有點奇怪。但是,對於賓夕法尼亞大學社交媒體與健康創新實驗室(Penn Social Media & Health Innovation Lab)的研究員來說卻不足為奇。該實驗室的主任萊娜•麥錢特(Raina Merchant)及其團隊正在研究如何利用人們在諸如臉譜、推特和Yelp等網站上的社交媒體用語來評估個人健康並預測疾病。他們正在研究的情況是包括心臟病、糖尿病、高血壓、肥胖症、慢性肺部疾病、抑鬱症和藥物濫用等美國過早死亡和殘疾的主要原因(更不用說飛漲的醫療費用)。
該實驗室隸屬於賓夕法尼亞大學醫療創新醫學中心,同時還與研究如何改善美國醫療體系的倫納德•大衛斯健康經濟學研究所(Leonard Davis Institute of Health Economics ,LDI)有合作。麥錢特既是LDI的高級研究員,還是賓夕法尼亞大學急診醫學助理教授。
麥錢特解釋說,人們的語言結構或他們所使用的單詞類型有差異。而這可能表明障礙或認知能力衰退。“有些人可能會直接發佈某種狀況,而有些狀況是在人們談論的時候顯示出來,”麥錢特說道,“如果有人發了很多可能表明他們很抑鬱的帖子。他們可能不會使用‘感覺悲傷’、‘憂鬱’、‘不高興’這樣明顯的字眼,但是可能會使用其它的……不那麼明顯表示抑鬱的字眼。”
雖然實驗室大部分的研究還處於相對早期的階段,但已經有了一些有趣的初步調查結果。2015年10月,該團隊在BMJ(British Medical Journal,前身為《英國醫學雜誌》)發表了一項涉及臉譜的研究。在該研究中,賓夕法尼亞大學衛生系統中1000多名患者同意把他們在社交媒體上的資料與他們的電子健康記錄進行比較。
其中的一個發現是,根據醫療記錄,臨床肥胖的人更有可能使用與靜止相關的詞語。“坐著、不動、立著和在休息等這樣的詞語,”麥錢特說道。團隊未曾預測到這樣的結果。他們以為這群人更可能會經常提到食物或運動。
賓夕法尼亞大學醫療創新中心(Penn’s Center for Health Care Innovation)主任大衛•阿希(David Asch)提到了該團隊正在進行的另一個研究所揭示的更意想不到的關聯:比起非高血壓人群,高血壓患者更頻繁地發有關他們孩子的帖子。
“雖然人們口頭上會這麼說,但是處理孩子的問題不會引起高血壓,”阿希說道。他同時也是沃頓醫療管理學和運營、資訊及決策學教授。“我們發現這種關聯在表面上很難解釋聯,而這也是我們事先沒有想到的。”
隱私問題
如果告訴人們這種類型的監視是為了改善他們的健康,大多數美國人會同意嗎?當然,資料採擷並不新鮮。多年來,行銷人員一直在暗地裡捕捉我們的網上行為,並用廣告誘惑我們。該研究的一些人甚至可能想起2014年涉及臉譜和“情緒感染”的爭議。據說,該公司在當事人不知情的情況下,操控了近70萬人的新聞速遞內容,以測試它是否能影響個人發佈更多正面或負面的內容(臉譜網聲稱已經通過其陳述的資料使用政策征得了使用者同意)。
相比之下,在麥錢特的研究中,是想獲得明確的同意,並把“可執行的”資料傳遞給患者。“我們希望的是,我們能不能收集這些資訊並回饋給患者,使他們能從我們做出的假設中真正瞭解一些東西?另外,如果患者想要分享,我們又如何讓其對醫療服務提供者有用?”
在實驗室涉及臉譜網的研究中,實際上很大一部分人都願意參與。這項研究顯示,賓夕法尼亞大學醫療系統中的1432名臉譜和推特用戶表達了對該研究的興趣。絕大多數——約71%的人同意分享他們的社交媒體活動,並與他們的電子醫療記錄進行對比。
“這是一個很大的發現,”麥錢特說道,“我們不知道之前有誰能真正做到這一點,即能表明人們會給予同意,並以非常透明的方式收集資料。”
阿希說,以他個人的經驗,在目前為止實驗室所進行的實驗中,人們似乎因為他們的健康受到當地醫院或健康體系“監視”這樣的想法而感到安慰。“我的直覺是,人們會把這當成‘老大哥’,”他說道。但他發現相反的情緒似乎是真實的。另外,“一個主要發現是,雖然人們真的在乎他們的隱私,但是他們同樣意識到分享這些資訊對他們自身以及社會的價值。”
他們的資料庫目前有3000名患者,該團隊計畫在未來的10年裡收集資料。根據麥錢特的說法,“構建地圖,構建一個人們分享資訊組成的足跡資料庫。”
分離噪音和有用信號
從社交媒體上的帖子真的可能得到有用的健康資料嗎?人們在網上說的很多事情都不假思索。電腦程式如何應對人類的口語化語言、隱喻、諷刺和幽默呢?如果實驗室的電腦程式把 “順便說一句,我快要死了!” 解讀為“我很沮喪,想要自殺!”會怎樣呢?
“我認為這些說法點到了問題的癥結所在,”麥錢特同意道。但即使是開玩笑的評論也可能是相關的。“即使是開玩笑的話,比起其他人,有某種狀況的人更可能使用這種玩笑。”
她說道,團隊的任務是試著分離有用信號。這項工作是由包括賴爾•安戈爾(Lyle Ungar)和安迪•施瓦茲(Andy Schwartz)在內的實驗室電腦科學家負責。同時也是生物分子工程和應用專家的安戈爾掌管的團隊執行自然語言處理——利用電腦自動“解讀”人們的社交媒體。施瓦茲在石溪大學(Stony Brook University)工作,與賓夕法尼亞大學社交媒體和健康創新實驗室遠端合作。
“社交媒體是一個非結構化資料來源,不能產生可以清晰地插入到統計軟體中的變數,”施瓦茲指出,“所以首先你必須運行演算法,把社交媒體這些字串轉化成某種有意義的統計資訊。”同時,他也運用從電腦和資訊科學中學習的最新機器學習技術。但即便如此,整個過程也是具有挑戰性的。
追蹤公共健康
除了著眼個人,該團隊還進行涉及廣泛的公共健康趨勢研究。其他團隊也採取了同樣的路線。一個廣為報導的例子就是在2000年代末,穀歌努力分析搜索查詢來比疾病治療中心(CDC)更早地預測流感的爆發。根據《史密森雜誌》所說,該專案並不是很成功。它一直都大大地高估了流感發病率。但是有些人認為,雖然該專案的執行有缺陷,其基本概念還是很有希望的。
麥錢特說,團隊參與了利用推特看心臟病的研究。重點之一是“瞭解人們如何看待心臟病,”阿希說道,“人們如何理解諸如心臟病、高血壓和糖尿病等說法?”如果有錯誤的看法,或許可以利用推特推出促進健康的資訊。“這樣做也不花錢。如果能行,會是個多麼有意義的事情。”
賓大社交媒體實驗室的研究還可以説明醫院獲取對他們服務有用的回饋。施瓦茲談及了4月份發表在《健康事務》中團隊有關Yelp的研究。該研究分析了人們對住院的看法。美國醫院通常利用被稱之為HCAHPS(醫院醫療服務提供者及體系的消費者評估系統)的標準患者滿意度調查來進行評估。但是據施瓦茲所說, Yelp的研究表明HCAHPS未能詢問諸如停車和應對收費人員等一些對病人非常重要的問題。
“例如,收費與醫院的病人住院率相關。因此,人們不僅大量地談論,而且實際上我們還發現,如果他們在評論中提到收費,他們更可能給出負面評論。”施瓦茲指出,醫院可以利用這些研究結果來改善它們的服務和全國排名。
從基因組到“社交基因”
該團隊創造了“社交基因”這種說法來描述他們正在進行研究的領域。“這是一種文字遊戲,”麥錢特解釋道。就像基因組反映了人的基因一樣,社交基因反映了人們的網上行為。
但是解析我們在社交媒體上隨機閒聊的嘗試真的能與DNA研究這一“硬科學”相提並論嗎?在過去的幾年裡,人類基因組測序已經取得了革命性的突破,引發了癌症和其他疾病新的治療方式。但是,阿希指出:“據估計,人類的行為要對過早死亡負40%的責任。”在日常生活中,我們所做的以及未做到的事關重大。“我認為,事實上,比起DNA,社交媒體可能會告訴我們更多有關我們健康的資訊,”他說道。
安戈爾表示同意。“我們怎麼做才能更健康,活得更久?不要吸煙;多做運動;系好安全帶;不要酒駕;不要抑鬱。那些快樂的有良好人際關係的人要比其他人多活五年。”安戈爾說,這些行為的共同點是它們從根本上來說都是心理上的,而不是基因上的。
安戈爾繼續說道,如果可以更早的發現自我毀滅行為,就可以減少醫療費用。“美國大多數的醫療保健費用都花的太晚了,”他說道,“給人們搭一個支架是昂貴的。而利用社交媒體幫助人們鍛煉,不讓他們患心血管疾病要便宜很多。”他舉了藥物成癮的例子。早期識別那些有藥物成癮風險的成本比在濫用藥物多年後試圖進行康復的費用要低。
阿希評價了社交媒體提供的巨大的研究機會。在它之前,“我們的行為在很大程度上都是‘沒人知道的’,”他說道,“私人交流很重要,但我們卻沒法進行觀察。”現在,“我們能夠更多地瞭解不同的行為方式與健康的關聯。而這非常令人興奮。”
《K@W》授權轉載