設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:諍友
萬維讀者網 > 教育學術 > 帖子
關於SVM的一些討論
送交者: SVM 2003年10月31日19:39:14 於 [教育學術] 發送悄悄話

從SVM誕生之日起,關於它的批評就從來沒有停過。到現在也仍然如此。
這個東東實在是有太多的缺陷:

結構風險最小,可以從理論上保證以一定概率得到最小實際風險,但是
貫徹到實踐中,由於不同的核函數和參數會顯著影響實際效果,但目前
對它們的選擇實際上仍然是啟發式的,結果,我們得到的在很大程度上
仍然只能說是sub-optimal;

support vector的數目,雖然從理論上說,它的數目和最終效果沒有直
接的聯繫,但確實,這個數是很驚人的,否則就不能保證效果。直觀地
看,SVM的分類和回歸差不多,support vector實際上是用來擬合一條
曲線的,為了保證精度,它們的數目自然少不了;

那個噁心之極的最優化問題,這個就不用說了,SVM用在海量數據上,
不用太多,10000個數據,跑個幾天是一點問題沒有,這個極大的限制
了它的成就。CART(Classify And Regression Tree)的發明者Friedman
拿到了數據挖掘領域的最高獎,它的理論未必比SVM更為高深和巧妙,
就是兩個字:實用。我用過一個CART的商用軟件,100000個數據,5分鐘
搞定,效果也差不到哪裡去。SVM要是能解決這個問題,它所代表的成就
會比現在高得多;

最後是判決。SVM的判決輸出和概率沒有直接關係,這也在某些程度上
限制了它的應用。

竊以為,對SVM的研究從縱向可以分為三部分:基礎理論研究,應用
理論研究和應用研究。朝上面四個問題或其它理論問題努力的,屬於基礎
理論研究,沒有深厚的數學底蘊,從這個方向入手,實在很難。應用理論
研究,主要是把成熟的理論用到一個大方向上,比如用SVM做無監督學習和
強化學習等;應用研究就是用SVM來解決具體的問題,比如人臉識別,文本
分類,然後甲乙丙丁比較一下,哪個更好。現在SVM的發展,在基礎理論方
面似乎已經碰到了瓶頸。

儘管SVM有很大缺陷,但是,無可置疑,它為我們打開了一扇窗戶,
這扇窗就是統計學習理論。它實際上代表了一種趨勢,統計方法將在人工
智能領域(我認為數據挖掘、模式識別當屬人工智能)大行其道。實際上,
SVM本身的作用確實有限,但是它帶來了很多新的方法,新的思路。

關於support vector的問題,有一些解決方案,我看到的比較經典的
例子有Yang提出的先用一個簡單的判決從樣本中尋找guard vector,
然後再從guard vector里尋找support vector的方法,他的實驗表明速度
可以提高數十倍(400個樣本),這實際上也是一條新思路:先把樣本集
分解,在較小的子集裡應用那個臭名昭著的最優化,可以降低時間消耗;
舉這個例子,是覺得SVM的基礎理論研究,仍然有工作可做。但是,容易做
的,老早就被人做光了。


0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制
一周點擊熱帖 更多>>
一周回復熱帖
歷史上的今天:回復熱帖
2002: 悼念田長霖:人本是大地的過客
2002: 交大發展之怪現象