談談機器學習(Machine Learning)大牛人-教育學術-萬維論壇-萬維讀者網（電腦版）

送交者: jmrl 2005年08月26日15:04:28 於 [教育學術] 發送悄悄話

閒着無事，想寫點一些我所了解的machine learning大家。由於學識淺薄，見識有限，並且僅局限於某些領域，一些在NLP及最近很熱的生物信息領域活躍的學者我就淺陋無知，所以不對的地方大家僅當一笑。

Machine Learning 大家(1)：M. I. Jordan

在我的眼裡，M Jordan無疑是武林中的泰山北斗。他師出MIT，現在在berkeley坐鎮一方，在附近的兩所名校（加stanford）CS系中都可以說無出其右者，stanford的Daphne Koller雖然也聲名遐邇，但是和Jordan比還是有一段距離。

Jordan身兼stat和cs兩個系的教授，從他身上可以看出Stat和ML的融合。

Jordan最先專注於mixtures of experts，並迅速奠定了自己的地位，我們哈爾濱工業大學的校友徐雷跟他做博後期間，也在這個方向上沾光不少。Jordan和他的弟子在很多方面作出了開創性的成果，如spectral clustering， Graphical model和nonparametric Bayesian。現在後兩者在ML領域是非常炙手可熱的兩個方向，可以說很大程度上是Jordan的lab一手推動的。

更難能可貴的是，Jordan不僅自己武藝高強，並且攬錢有法，教育有方，手下門徒眾多且很多人成了大器，隱然成為江湖大幫派。他的弟子中有10多人任教授，個人認為他現在的弟子中最出色的是stanford的Andrew Ng，不過由於資歷原因，現在還是assistant professor，不過成為大教授指日可待；另外Tommi Jaakkola和David Blei也非常厲害，其中Tommi Jaakkola在mit任教而David Blei在cmu做博後，數次獲得NIPS最佳論文獎，把SVM的最大間隔方法和Markov network的structure結構結合起來，赫赫有名。還有一個博後是來自於toronto的Yee Whye Teh，非常不錯，有幸跟他打過幾次交道，人非常nice。另外還有一個博後居然在做生物信息方面的東西，看來jordan在這方面也撈了錢。這方面他有一個中國學生Eric P. Xing(清華大學校友)，現在在cmu做assistant professor。

總的說來，我覺得Jordan現在做的主要還是graphical model和Bayesian learning，他去年寫了一本關於graphical model的書，今年由mit press出版，應該是這個領域裡程碑式的著作。3月份曾經有人答應給我一本打印本看看，因為Jordan不讓他傳播電子版，但後來好像沒放在心上（可見美國人也不是很守信的），人不熟我也不好意思問着要，可以說是一大遺憾. 另外發現一個有趣的現象就是Jordan對hierarchical情有獨鍾，相當多的文章都是關於hierarchical的，所以能hierarchical大家趕快hierarchical，否則就讓他給搶了。

用我朋友話說看jordan牛不牛，看他主頁下面的Past students and postdocs就知道了。

Machine Learning大家（2）：D. Koller

D. Koller是1999年美國青年科學家總統獎(PECASE)得主，IJCAI 2001 Computers and Thought Award(IJCAI計算機與思維獎，這是國際人工智能界35歲以下青年學者的最高獎)得主，2004 World Technology Award得主。

最先知道D koller是因為她得了一個大獎，2001年IJCAI計算機與思維獎。Koller因她在概率推理的理論和實踐、機器學習、計算博弈論等領域的重要貢獻，成為繼Terry Winograd、David Marr、Tom Mitchell、Rodney Brooks等人之後的第18位獲獎者。說起這個獎挺有意思的，IJCAI終身成就獎（IJCAI Award for Research Excellence），是國際人工智能界的最高榮譽; IJCAI計算機與思維獎是國際人工智能界35歲以下青年學者的最高榮譽。早期AI研究將推理置於至高無上的地位; 但是1991年牛人Rodney Brooks對推理全面否定，指出機器只能獨立學習而得到了IJCAI計算機與思維獎; 但是koller卻因提出了Probabilistic Relational Models 而證明機器可以推理論知而又得到了這個獎，可見世事無絕對，科學有輪迴。

D koller的Probabilistic Relational Models在nips和icml等各種牛會上活躍了相當長的一段時間，並且至少在實驗室里證明了它在信息搜索上的價值，這也導致了她的很多學生進入了google。雖然進入google可能沒有在牛校當faculty名聲響亮，但要知道google的很多員工現在可都是百萬富翁，在全美大肆買房買車的主。

Koller的研究主要都集中在probabilistic graphical model，如Bayesian網絡，但這玩意我沒有接觸過，我只看過幾篇他們的markov network的文章，但看了也就看了，一點想法都沒有，這灘水有點深，不是我這種非科班出身的能趟的，並且感覺難以應用到我現在這個領域中。

Koller才從教10年，所以學生還沒有湧現出太多的牛人，這也是她不能跟Jordan比擬的地方，並且由於在stanford的關係，很多學生直接去硅谷賺大錢去了，而沒有在學術界開江湖大幫派的影響，但在stanford這可能太難以辦到，因為金錢的誘惑實在太大了。不過Koller的一個學生我非常崇拜，叫Ben Taskar，就是我在（1）中所提到的Jordan的博後，是好幾個牛會的最佳論文獎，他把SVM的最大間隔方法和Markov network結合起來，可以說是對structure data處理的一種標準工具，也把最大間隔方法帶入了一個新的熱潮，近幾年很多牛會都有這樣的workshop。我最開始上Ben Taskar的在stanford的個人網頁時，正趕上他剛畢業，他的頂上有這麼一句話：流言變成了現實，我終於畢業了！可見Koller是很變態的，把自己的學生關得這麼鬱悶，這恐怕也是大多數女faculty的通病吧，並且估計還非常的push！

Machine learning 大家（3）:J. D. Lafferty

大家都知道NIPS和ICML向來都是由大大小小的山頭所割據，而John Lafferty無疑是裡面相當高的一座高山，這一點可從他的publication list里的NIPS和ICML數目得到明證。雖然江湖傳說計算機重鎮CMU現在在走向衰落，但這無礙Lafferty擁有越來越大的影響力，翻開AI兵器譜排名第一的journal of machine learning research的很多文章，我們都能發現author或者editor中赫然有Lafferty的名字。

Lafferty給人留下的最大的印象似乎是他2001年的conditional random fields，這篇文章後來被瘋狂引用，廣泛地應用在語言和圖像處理，並隨之出現了很多的變體，如Kumar的discriminative random fields等。雖然大家都知道discriminative learning好，但很久沒有找到好的discriminative方法去處理這些具有豐富的contextual inxxxxation的數據，直到Lafferty的出現。

而現在Lafferty做的東西好像很雜，semi－supervised learning， kernel learning，graphical models甚至manifold learning都有涉及，可能就是像武俠里一樣只要學會了九陽神功，那麼其它的武功就可以一窺而知其精髓了。這裡面我最喜歡的是semi－supervised learning，因為隨着要處理的數據越來越多，進行全部label過於困難，而完全unsupervised的方法又讓人不太放心，在這種情況下semi－supervised learning就成了最好的。這沒有一個比較清晰的認識，不過這也給了江湖後輩成名的可乘之機。到現在為止，我覺得cmu的semi－supervised是做得最好的，以前是KAMAL NIGAM做了開創性的工作，而現在Lafferty和他的弟子作出了很多總結和創新。

Lafferty的弟子好像不是很多，並且好像都不是很有名。不過今年畢業了一個中國人，Xiaojin Zhu(上海交通大學校友)，就是做semi－supervised的那個人，現在在wisconsin-madison做assistant professor。他做了迄今為止最全面的Semi-supervised learning literature survey，大家可以從他的個人主頁中找到。這人看着很憨厚，估計是很好的陶瓷對象。另外我在（1）中所說的Jordan的牛弟子D Blei今年也投奔Lafferty做博後，就足見Lafferty的牛了。

Lafferty做NLP是很好的，著名的Link Grammar Parser還有很多別的應用。其中language model在IR中應用，這方面他的另一個中國學生ChengXiang Zhai(南京大學校友，2004年美國青年科學家總統獎(PECASE)得主)，現在在uiuc做assistant professor。

Machine learning 大家（4):Peter L. Bartlett

鄙人淺薄之見，Berkeley CS的Jordan比起同在Berkeley(統計系)的Peter Bartlett還是要差一個層次。Bartlett主要的成就都是在learning theory方面，也就是ML最本質的東西。他的幾篇開創性理論分析的論文，當然還有他的書Neural Network Learning: Theoretical Foundations。

UC Berkeley的統計系在強手如林的北美高校中一直是top3，這就足以證明其肯定是群星薈萃，而其中，Peter L. Bartlett是相當亮的一顆星。關於他的研究，我想可以從他的一本書裡得到答案：Neural Network Learning: Theoretical Foundations。也就是說，他主要做的是Theoretical Foundations。基礎理論雖然沒有一些直接可面向應用的算法那樣引人注目，但對科學的發展實際上起着更大的作用。試想vapnik要不是在VC維的理論上辛苦了這麼多年，怎麼可能有SVM的問世。不過陽春白雪固是高雅，但大多數人只能聽懂下里巴人，所以Bartlett的文章大多只能在做理論的那個圈子裡產生影響，而不能為大多數人所廣泛引用。

Bartlett在最近兩年做了大量的Large margin classifiers方面的工作，如其convergence rate和generalization bound等。並且很多是與jordan合作，足見兩人的工作有很多相通之處。不過我發現Bartlett的大多數文章都是自己為第一作者，估計是在教育上存在問題吧，沒帶出特別牛的學生出來。Bartlett的文章基本上是第一作者，也可能是因為他是搞統計的，名字是B開頭的。

Bartlett的個人主頁的talk里有很多值得一看的slides,如Large Margin Classifiers: Convexity and Classification；Large Margin Methods for Structured Classification: Exponentiated Gradient Algorithms。大家有興趣的話可以去下來看看。

老外搞統計的管得真寬。嗯，in my point of view，Machine Learning 特別是涉及理論構架的一塊應該是stat當仁不讓的一塊領域，而M.L.裡面用到的很多algorithmic model 也應該在統計學界獲得承認和重視的地位。但其中的艱辛和爭論你看 Breiman 2001 年在 Statistical Science上發的那篇文章就體會到了。

其實即使在美國，主流的統計好像不屑機器學習，就像類似SVM不屑神經網絡，呵呵。stat系裡面大張旗鼓地做 M.L.的幾乎也只有 Berkeley stat 和 Stanford stat 兩個地方而已，很多在東部的學校，stat很好的地方，對ml的態度都很indifferent的，有很多傳統統計學的框框，比如model，比如unbiasedness 等等，讓一些正統統計出身的總在心裡不接受ml。唉。Harvard stat 那邊做bioinxxxxatics 也是算思想很新銳，在美國的統計系中較早引入機器學習的方法的，不過他們那邊主要也就是用一下ML中比較新的方法分析一些sequence和SNP的數據，對ML本身theory和 methodology的貢獻就我看到的不多。

看看在machine learning裡面learning theory都是做什麼的出身就知道了stat在ML中的作用。berkeley 和stanford里stat確實是一堆做ML的大牛。問題有的時候不在於是否一定要用什麼模型，不管是Bayesians, Frequentists，能符合問題本質的，解決好問題的就是好方法。統計本來的目的就是解決各個應用學科中的具體問題的，在ML中現在的一個大困難就是高維和大數據量的問題，類似的還存在在bioinfomatics，這也是為什麼很多ML和stat的人在其中做的原因。而這樣一個高維大數據量的問題使得在經典統計方法和教科書中的很多方法都不實用了，所以這是對stat的人一個挑戰，也是現在stat在美國非常熱門的原因之一。

統計比較好的journals應該是下面這些:
The Annals of Statistics
JASA
JRSS (journal of royal statistical society, series B. 著名的EM算法就發在上面)
Biometrika
Bernoulli

Machine learning 大家（5): Michael Collins

Michael Collins (http://people.csail.mit.edu/mcollins/
自然語言處理(NLP)江湖的第一高人。出身Upenn，靠一身叫做Collins Parser的武功在江湖上展露頭腳。當然除了資質好之外，其出身也幫了不少忙。早年一個叫做Mitchell P. Marcus的師傅傳授了他一本葵花寶典-Penn Treebank。從此，Collins整日沉迷於此，終於練成蓋世神功。

學成之後，Collins告別師傅開始闖蕩江湖度肓艘桓黿蠥T&T Labs Research的幫會，並有幸結識了Robert Schapire、Yoram Singer等眾多高手。大家不要小瞧這個叫AT&T Labs Research的幫會，如果誰沒有聽過它的大名總該知道它的同父異母的兄弟Bell Labs吧。

言歸正傳，話說Collins在這裡度過了3年快樂的時光。其間也奠定了其NLP江湖老大的地位。並且練就了Discriminative Reranking， Convolution Kernels，Discriminative Training Methods for Hidden Markov Models等多種絕技。然而，世事難料，怎奈由於幫會經營不善，這幫大牛又不會為幫會拼殺，終於被一腳踢開，大家如鳥獸散了。Schapire去了Princeton， Singer 也回老家以色列了。Collins來到了MIT，成為了武林第一大幫的六袋長老，並教授一門叫做的Machine Learning Approaches for NLP
(http://www.ai.mit.edu/courses/6.891-nlp/的功夫。雖然這一地位與其功力極不相符，但是這並沒有打消Collins的積極性，通過其刻苦打拼，終於得到了一個叫Sloan Research Fellow的頭銜，並於今年7月，光榮的升任7袋Associate Professor。

在其下山短短7年時間內，Collins共獲得了4次世界級武道大會冠軍(EMNLP2002, 2004, UAI2004, 2005)。相信年輕的他，總有一天會一統丐幫，甚至整個江湖。

看過Collins和別人合作的一篇文章，用conditional random fields 做object recogntion。還這麼年輕，admire to death！

Machine learning 大家（6): Dan Roth

Dan Roth
http://l2r.cs.uiuc.edu/~danr/

統計NLP領域的眾多學者後，我得出了一個驚人的結論，就是叫Daniel的牛人特別多:
大到MT領域成名已久的Prof. Dan Melamed，小到Stanford剛剛畢業的Dan Klein，中
間又有Dan jurafsky這種牛魔王，甚至Michael Collins的師弟Dan Bikel
(IBM Research)，ISI的Dan Marcu，獲得過無數次TREC QA評比冠軍的
Prof. Dan Moldovan (UTexas Dallas)，UC Berkeley畢業的Dan Gildea
(U Rochester)。但是，在眾多的Dan中，我最崇拜的還是UIUC的Associate
Professor，其Cognitive Computation Group的頭頭Dan Roth。

這位老兄也是極其年輕的，Harvard博士畢業整十年，帶領其團隊撐起了UIUC Machine
Learning以及NLP領域的一片燦爛天空。其領導開發的SNoW工具可謂是一把絕世好劍，
基本達到了"又想馬兒跑，又想馬兒不吃草"的境界，在不損失分類精度的條件下，學習
和預測速度空前。什麼？你不知道SNoW？它和白雪公主有什麼關係？看來我也得學學
"超女"的粉絲們，來一個掃盲了: SNoW是Sparse Network of Winnows的簡稱，其中實
現了Winnow算法，但是記住Sparse Network才是其重點，正是因為有了這塊玄鐵，
SNoW之劍才會如此鋒利。

近年來Roth也趕時髦，把觸角伸向了Structured Data學習領域，但與其他人在學習的
時候就試圖加入結構化信息(典型的如CRF)不同，Roth主張在預測的最後階段加入約束
進行推理，這可以使的學習效率極大的提高，同時在某些應用上，還取得了更好的結果。
還有就是什麼Kernel學習，估計他也是學生太多，安排不下了，所以只好開疆擴土。

Harvard出身的Roth，理論功底也極其深厚，好多涉及統計學習理論的工作就不是我這種
學工科的人關心的了。

最後廣播一條小道消息，Roth正在招PostDoc，感興趣的可以聯繫一下他，呵呵。

機器學習大牛人還有max planck研究院的 Bernhard Scholkopf，他帶的應該是除了Jordan以外最大山頭了吧。Scholkopf 前兩年靠做 support vector 和 kernel methods 貢獻了很多成果。

耳熟能詳的機器學習大牛人還有CMU的Avrim Blum。我認為華人裡面做ML做的最好的是IBM的Tong Zhang。這個Tong Zhang確實牛，經常看到他一個人發的paper。

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

筆　名：		註冊新用戶
密　碼：

	發布新帖		論壇文庫		忘記密碼
	簡潔版		修改密碼		版主公告

一周點擊熱帖

更多>>

1	孫晴：在舊書店淘到了寶	芨芨草
2	費馬大定理-鋪平道路	天蓉
3	不可描述的張小黑：《西遊記》原	屙文哲
4	心流底蘊處在身心欲求表徵的意識	方方
5	六親不近是大好事！南懷瑾親口證	屙文哲
6	這個就是黃開勝的老婆張圓圓的資	屙文哲
7	談範例的“無 = 動 = 在”	中國現代哲
8	什麼是科學的思想方法	蔣聞銘
9	1996 級碩士研究生張圓圓訪談	屙文哲
10	從“大爆炸前期到黑洞” 與從“	中國現代哲

一周回復熱帖

1	關於國際關注知識產權協會【標	王玉芳
2	大問題Dialectic：如何證明這世	屙文哲
3	淨空老法師:淨土大經科註（第四	亦宛然
4	這樣的人當中共的教育部長能為中	覅覅
5	太陽系量子力學結構周期表（之二	五十肩
6	性本善——我對善的註解·我和De	方方
7	李泱湜考慮發起成立中國團結進	王玉芳
8	太陽系量子力學結構周期表（之二	五十肩
9	李隕石《大同宣言》消息樹版本	王玉芳
10	關於國際關注知識產權協會	王玉芳

歷史上的今天：回復熱帖

2004:	斯坦福大學是如何押寶Google終結碩果的
2003:	科學成功經驗談----James D. Watson
2003:	學術期刊之十大怪現狀
2002:	牛滿江教授解說基因之謎、解說世紀人生
2002:	普林斯頓大學處於不敗之地的秘訣：求精