上集連結─避免資料探勘危機(I):什麼是資料探勘?在投資上應特別小心的是…
以下的這段話在2004年的6月1日刊登在RealMoney.com:
投資策略
利用過去的數據資料運作良好的模型未必在未來也同樣管用。檢查方法的弱點,像是過適(overfitting 註)、忽略非流動性或與企業運作間的關係,當測試一項理論時應該要考量實際的情況。
註:根據維基百科的解釋,過適(overfitting)表示在統計模型當中使用過多參數。這些過度複雜的參數能夠完美地適應任何資料。
其他方面的資料探勘
在1992年至1993年,有一群聰明的投資者解開了住宅用不動產抵押貸款證券(Residential Mortgage Backed Securities)市場的謎團。有些人運用許多複雜因素間的關係來預估抵押貸款的預付金額。
運用這樣的知識,他們買了一些以抵押貸款群組中的現金流量作為支撐的高風險的債券。他們或許對於過去市場各因素之間的關係相當地了解,但他們沒有預料到無成本的預付變成一種常態而因此失敗。在1994年又因為聯準會升息而又再度失敗了一次。這些失敗令人感到震撼:David Askin的避險基金、Piper Jaffray當中由Worth Bruntjen管理的Orange Country還有一些小型的壽險業者…等都深受其害。除此之外,還有許多大型財務機構在此次的交易當中損失了數十億美元。
我們可以從這個事件學到什麼呢?在過去運作良好的模型未必在未來也同樣能夠運作得宜,特別是在高度槓桿的情況之下。在過去衡量各因素之間關係所產生的小誤差可能在未來因槓桿而擴大為大災難。
我推薦由Victor Niederhoffer和Laurel Kenner所寫的一本書:Practical Speculation,這本書的前半部拆穿了資料探勘的真面目。但書中還是有資料的運用。舉例來說,在第9章當中,作者基於前幾年的運作結果調整部位大小來測試在長期之下如何改進買進並持有指數的一些方法。測試出來的足夠結果顯示其中一項在過去是有效的。我的猜測是這些顯著的結果僅是統計偏差,在未來不一定有用。像在2000年至2002年的衰退期,就無法用這些方法運作。
附帶一提,Niederhoffer的避險基金之所以會一敗塗地的其中一個主要原因就是因為他太相信這個想法了,但過去的資料並無法告訴他什麼樣的事件不會發生。市場總是出乎意料的作出每個人“知道“它不會作出的事情來,特別是在大部份市場參與者依賴著未發生的事情來作決策的時候。在這個案例當中,Niederhoffer知道美國的銀行股價下跌了90%但它們也存活了,而且他們仍保有一定的價值。運用同樣的洞察力來投資泰國的銀行、對數據有太多的依賴,讓他的資金受到嚴重的損失。
應該要注意的事項
投資人若觀察到量化分析有以下的這七個特徵時,應該要有所警覺,並了解它的危險有可能帶來麻煩:
- 方法上有一點小小的改變就會導致結果有很大的改變。在這些案例當中所使用的方法都過度樂觀了。它可能是因為在模型當中有過適(註)的現象才達到了完美的結果,這些過適的現象可能會不當地將雜訊過度解釋為重要訊息而回傳不正確的訊息。
- 好的模型應該要考量到市場當中某些流動性低的部份。任何方法得出的結論若是你應該要將大部份的資金放置於特定的小型資產或都是小型股票都應該要被質疑。低流動性或隱密的資產在模型當中應該要被視為投資當中對於流動性的懲罰。它們買賣不易,除非付出相當高的交易成本。
- 小心頻繁交易的模型,特別是他們忽略了交易成本和買賣價差的時候,如果你的部位相對於市場來說夠大的話,還要小心市場衝擊成本。而這些因素也組成了一種叫做執行差額(Implementation Shortfall, IS)的策略。一般來說,執行差額策略損耗了一半以上回測所預測出來的超額報酬,即使回測是著眼於避免資料探勘的情況下完成的。
有關於執行差額策略的詳細描述,可以讀Jerrod X. Wilcox的著作Investing by the Numbers。在第10章中有討論到細節的部份。這也是我所知的量化分析當中一本最好的書。
- 小心使用多次的篩選,卻只有一些或完全沒有進一步的分析,最後只剩下幾檔建議買入或賣出股票的方法。雖然這些方法可能在過去運作得很好,但是會計相關的資料本質上是估算出來的,也很容易被動手腳。篩選僅是把投資標的的範圍限縮到能夠開始進行分析,但它永遠無法取代證券分析。
- 避免使用缺乏合理商業分析的量化方法。有效的量化分析通常是由模仿那些明智企業家的流程來的。千萬不要把困果關係混淆了。有時候兩個變數看起來似乎有一點顯著的關係,在過去的統計資料當中卻被顯示為有重大的關聯。這兩個變數不過是在過去有關係並不代表它們在未來也會有同樣的關係。尤其是在這兩個變數沒有業務上的關聯性時更有可能是這樣。
- 觀察控制數據的使用。控制數據是資料數列的一部份而非用來預估關係。在選擇完“最好”的模型後,它會在左側來測試其關聯性。它常常會指出那個“最好”的方法並不是那麼地好。也要注意多次使用控制數據以測試到最好的方法。這違背了藉由資料探勘控制樣本來達到控制的目的。
- 會計的其中一個趨勢是使用更多詳細的規則試圖能夠更精確地吻合每一間公司。這個問題在於比較不同的公司及不同的產業時,沒有額外的訊息讓這些資料達到可比性。這種透過篩選讓股票數量變少的工具沒有那麼有用。要成功地運用量化分析,數據應該要能夠表達不同公司當中一樣的事情。
實務上的建議
量化分析的圈套有很多。以下的三項簡單的想法能夠幫助避免投資人陷入資料探勘的危機當中:
- 模擬任何你考慮使用的新的量化分析方法。模擬時也要一併考量交易成本以及買賣價差。若你所交易的市場是特定的非流動市場時,也要考慮市場衝擊成本。即使這些事情都作了,你仍要記得實際上的績效是有可能比模擬的狀況來得差的。
- 思考如何維持競爭優勢。你要如何讓這樣的流程不易被複製?該方法如何讓你能夠運用你自己的商業判斷力?即使這個方法很好,但是否也有可能因為太常被使用而使得你的報酬仍然不高?即使是好的方法也有可能被濫用。
- 如果要使用量化分析,就該有效率地使用。在觀察數據之前先形成自己的理論,並反覆測試。如果這個方法的確不錯,就在可控制的範圍內應用這項結果。如果你這樣測試量化分析,你將會只剩下少數的方法是真正能夠使用的,但只有值得信賴的方法是真的能夠通過考驗的。(譯者/Ing)
《The Aleph Blog》授權轉載