關於SVM的一些討論-教育學術-萬維論壇-萬維讀者網（電腦版）

送交者: SVM 2003年10月31日19:39:14 於 [教育學術] 發送悄悄話

從SVM誕生之日起，關於它的批評就從來沒有停過。到現在也仍然如此。
這個東東實在是有太多的缺陷：

結構風險最小，可以從理論上保證以一定概率得到最小實際風險，但是
貫徹到實踐中，由於不同的核函數和參數會顯著影響實際效果，但目前
對它們的選擇實際上仍然是啟發式的，結果，我們得到的在很大程度上
仍然只能說是sub-optimal；

support vector的數目，雖然從理論上說，它的數目和最終效果沒有直
接的聯繫，但確實，這個數是很驚人的，否則就不能保證效果。直觀地
看，SVM的分類和回歸差不多，support vector實際上是用來擬合一條
曲線的，為了保證精度，它們的數目自然少不了；

那個噁心之極的最優化問題，這個就不用說了，SVM用在海量數據上，
不用太多，10000個數據，跑個幾天是一點問題沒有，這個極大的限制
了它的成就。CART（Classify And Regression Tree）的發明者Friedman
拿到了數據挖掘領域的最高獎，它的理論未必比SVM更為高深和巧妙，
就是兩個字：實用。我用過一個CART的商用軟件，100000個數據，5分鐘
搞定，效果也差不到哪裡去。SVM要是能解決這個問題，它所代表的成就
會比現在高得多；

最後是判決。SVM的判決輸出和概率沒有直接關係，這也在某些程度上
限制了它的應用。

竊以為，對SVM的研究從縱向可以分為三部分：基礎理論研究，應用
理論研究和應用研究。朝上面四個問題或其它理論問題努力的，屬於基礎
理論研究，沒有深厚的數學底蘊，從這個方向入手，實在很難。應用理論
研究，主要是把成熟的理論用到一個大方向上，比如用SVM做無監督學習和
強化學習等；應用研究就是用SVM來解決具體的問題，比如人臉識別，文本
分類，然後甲乙丙丁比較一下，哪個更好。現在SVM的發展，在基礎理論方
面似乎已經碰到了瓶頸。

儘管SVM有很大缺陷，但是，無可置疑，它為我們打開了一扇窗戶，
這扇窗就是統計學習理論。它實際上代表了一種趨勢，統計方法將在人工
智能領域(我認為數據挖掘、模式識別當屬人工智能)大行其道。實際上，
SVM本身的作用確實有限，但是它帶來了很多新的方法，新的思路。

關於support vector的問題，有一些解決方案，我看到的比較經典的
例子有Yang提出的先用一個簡單的判決從樣本中尋找guard vector，
然後再從guard vector里尋找support vector的方法，他的實驗表明速度
可以提高數十倍（400個樣本)，這實際上也是一條新思路：先把樣本集
分解，在較小的子集裡應用那個臭名昭著的最優化，可以降低時間消耗；
舉這個例子，是覺得SVM的基礎理論研究，仍然有工作可做。但是，容易做
的，老早就被人做光了。

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2002:	悼念田長霖：人本是大地的過客
2002:	交大發展之怪現象