大數據時代
大數據是時下最夯的一個詞,各行各業似乎都跟他扯得上邊,因此近來很多大師或業界權威的演講中它也常常會是分享的主題。
到底甚麼是所謂的大數據呢?根據維基百科的定義是指「所涉及的資料量規模巨大到無法透過人工或者電腦,在合理時間內達到擷取、管理、處理、 並整理成為人類所能解讀的形式的資訊」,跟傳統統計最大的不同就是大數據使用所有蒐集的數據(來源多樣而且都沒甚麼規律)來找出其中的關聯性並建立出模型。
Fintech—Ayasdi
本文要介紹的是在 fintech 中市場資訊供應類的一家叫 Ayasdi的公司。 Ayasdi 是印地安語,意思是「尋找」。2008 年的時候由史丹佛大學的 Gurjeet Singh,Gunnar Carlsson 和 Harlan Sexton 創立,這三位是研究如何將拓樸學運用到資料分析上的專家,公司剛創立時就拿到了 DARPA 350 萬的資助,到了 2015 年更從 Kleiner Perkins 募得了 5500 萬的資金。他們只提供 B2B 的服務,主要的客群為需要藉由大數據分析解決問題或找出模式的企業,企業涵蓋領域非常多樣化,例如 General Electric、Citi等等的知名公司,甚至有醫療方面的應用。
Ayasdi三位創立者認為分析複雜的數據是未來企業必須的能力,而他們的願景是讓複雜的數據變得有用。而他們創造的這樣產品是一個用於大數據分析的機器學習平台。Ayasdi 的基礎使用的是 Apache Hadoop(一個能儲存並管理大量數據的雲端平台),這使得他們能直接使用 Hadoop 的數據,然後利用拓樸數據分析技術及各種機器學習的算法來處理複雜的數據,最後確定各個數據節點的相似度,跑出來的結果會是一張圖,相近的數據點會構成一個個集合,方便使用者作分析之用。這是他們與一般大數據公司最不同的地方,而另外一個不同的地方在於他不像一般大數據系統需要輸入查詢式問句,他能自動從數據中發現隱藏的模式。
醫療體系的改革者
Ayasdi最大的衝擊是在醫療的方面,他解決了許多醫生和醫療機構困擾已久的問題,許多醫療機構想要提升臨床護理的效率以及質量,他們想要產生出一套流程,當某一個病人走進來說明完他的病情就能直接使用某一程序給病人最好的治療。這在以前是一件不可能的事情因為牽扯的變數太多太複雜了,但在拓樸數據分析技術的幫忙下,數據的某些特定部分與特定的病人間的關係已經可以使用,可藉由找出病人屬於哪一個集合,然後從集合中提取最佳解。
風險控制和市場預測的行家
Ayasdi 既然是一家 fin-tech 公司,他當然也有金融方面的運用,這主要分為兩部分,風險控制與市場預測。
- 在風險控制的部分,它可以加快風險模型,一般而言風險模型的形成耗時良久,需要量化分析師不斷做猜測及嘗試來確定加入模型的變數,但透過Ayasdi 一開始就會把所有的變數都考慮進來,並能有效率的從中找出關聯性高的變數,快速地建立出正確的模型。
- 在市場預測的部分,很直覺的可以想到 Ayasdi 是把世界上各個市場的經濟 數據拿來分析,找出高度相關的變數建立出模型,另外這個模型不只有跨地區的特性,它同時也兼顧了當地不同時間段的特性,產生出來的模型比起傳統更加的精確有效。
結語
我認為拓樸分析這項技術真的帶來許多便利,一般來說傳統我們學的數據分析都是跑出數字結果,但是 Ayasdi 的產品所產生的拓樸圖能夠給使用者更清楚的分析結果。另外一個我覺得這項產品很不錯的地方在於他在醫療上的應用,透過發現隱藏在數據中模式的這種行為,他成功幫助發現乳腺癌的多種變種,將來應該也可帶來更多有用的發現。但是這種產品的出現也讓我不禁開始擔心未來的就業市場,當電腦越來越聰明的情況下,人力的需求會漸漸下降,未來的產業鏈會是什麼樣子真的讓我難以想像。