谈谈机器学习(Machine Learning)大牛人-教育学术-万维论坛-万维读者网（电脑版）

送交者: jmrl 2005年08月26日15:04:28 于 [教育学术] 发送悄悄话

闲着无事，想写点一些我所了解的machine learning大家。由于学识浅薄，见识有限，并且仅局限于某些领域，一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知，所以不对的地方大家仅当一笑。

Machine Learning 大家(1)：M. I. Jordan

在我的眼里，M Jordan无疑是武林中的泰山北斗。他师出MIT，现在在berkeley坐镇一方，在附近的两所名校（加stanford）CS系中都可以说无出其右者，stanford的Daphne Koller虽然也声名遐迩，但是和Jordan比还是有一段距离。

Jordan身兼stat和cs两个系的教授，从他身上可以看出Stat和ML的融合。

Jordan最先专注于mixtures of experts，并迅速奠定了自己的地位，我们哈尔滨工业大学的校友徐雷跟他做博后期间，也在这个方向上沾光不少。Jordan和他的弟子在很多方面作出了开创性的成果，如spectral clustering， Graphical model和nonparametric Bayesian。现在后两者在ML领域是非常炙手可热的两个方向，可以说很大程度上是Jordan的lab一手推动的。

更难能可贵的是，Jordan不仅自己武艺高强，并且揽钱有法，教育有方，手下门徒众多且很多人成了大器，隐然成为江湖大帮派。他的弟子中有10多人任教授，个人认为他现在的弟子中最出色的是stanford的Andrew Ng，不过由于资历原因，现在还是assistant professor，不过成为大教授指日可待；另外Tommi Jaakkola和David Blei也非常厉害，其中Tommi Jaakkola在mit任教而David Blei在cmu做博后，数次获得NIPS最佳论文奖，把SVM的最大间隔方法和Markov network的structure结构结合起来，赫赫有名。还有一个博后是来自于toronto的Yee Whye Teh，非常不错，有幸跟他打过几次交道，人非常nice。另外还有一个博后居然在做生物信息方面的东西，看来jordan在这方面也捞了钱。这方面他有一个中国学生Eric P. Xing(清华大学校友)，现在在cmu做assistant professor。

总的说来，我觉得Jordan现在做的主要还是graphical model和Bayesian learning，他去年写了一本关于graphical model的书，今年由mit press出版，应该是这个领域里程碑式的著作。3月份曾经有人答应给我一本打印本看看，因为Jordan不让他传播电子版，但后来好像没放在心上（可见美国人也不是很守信的），人不熟我也不好意思问着要，可以说是一大遗憾. 另外发现一个有趣的现象就是Jordan对hierarchical情有独钟，相当多的文章都是关于hierarchical的，所以能hierarchical大家赶快hierarchical，否则就让他给抢了。

用我朋友话说看jordan牛不牛，看他主页下面的Past students and postdocs就知道了。

Machine Learning大家（2）：D. Koller

D. Koller是1999年美国青年科学家总统奖(PECASE)得主，IJCAI 2001 Computers and Thought Award(IJCAI计算机与思维奖，这是国际人工智能界35岁以下青年学者的最高奖)得主，2004 World Technology Award得主。

最先知道D koller是因为她得了一个大奖，2001年IJCAI计算机与思维奖。Koller因她在概率推理的理论和实践、机器学习、计算博弈论等领域的重要贡献，成为继Terry Winograd、David Marr、Tom Mitchell、Rodney Brooks等人之后的第18位获奖者。说起这个奖挺有意思的，IJCAI终身成就奖（IJCAI Award for Research Excellence），是国际人工智能界的最高荣誉; IJCAI计算机与思维奖是国际人工智能界35岁以下青年学者的最高荣誉。早期AI研究将推理置于至高无上的地位; 但是1991年牛人Rodney Brooks对推理全面否定，指出机器只能独立学习而得到了IJCAI计算机与思维奖; 但是koller却因提出了Probabilistic Relational Models 而证明机器可以推理论知而又得到了这个奖，可见世事无绝对，科学有轮回。

D koller的Probabilistic Relational Models在nips和icml等各种牛会上活跃了相当长的一段时间，并且至少在实验室里证明了它在信息搜索上的价值，这也导致了她的很多学生进入了google。虽然进入google可能没有在牛校当faculty名声响亮，但要知道google的很多员工现在可都是百万富翁，在全美大肆买房买车的主。

Koller的研究主要都集中在probabilistic graphical model，如Bayesian网络，但这玩意我没有接触过，我只看过几篇他们的markov network的文章，但看了也就看了，一点想法都没有，这滩水有点深，不是我这种非科班出身的能趟的，并且感觉难以应用到我现在这个领域中。

Koller才从教10年，所以学生还没有涌现出太多的牛人，这也是她不能跟Jordan比拟的地方，并且由于在stanford的关系，很多学生直接去硅谷赚大钱去了，而没有在学术界开江湖大帮派的影响，但在stanford这可能太难以办到，因为金钱的诱惑实在太大了。不过Koller的一个学生我非常崇拜，叫Ben Taskar，就是我在（1）中所提到的Jordan的博后，是好几个牛会的最佳论文奖，他把SVM的最大间隔方法和Markov network结合起来，可以说是对structure data处理的一种标准工具，也把最大间隔方法带入了一个新的热潮，近几年很多牛会都有这样的workshop。我最开始上Ben Taskar的在stanford的个人网页时，正赶上他刚毕业，他的顶上有这么一句话：流言变成了现实，我终于毕业了！可见Koller是很变态的，把自己的学生关得这么郁闷，这恐怕也是大多数女faculty的通病吧，并且估计还非常的push！

Machine learning 大家（3）:J. D. Lafferty

大家都知道NIPS和ICML向来都是由大大小小的山头所割据，而John Lafferty无疑是里面相当高的一座高山，这一点可从他的publication list里的NIPS和ICML数目得到明证。虽然江湖传说计算机重镇CMU现在在走向衰落，但这无碍Lafferty拥有越来越大的影响力，翻开AI兵器谱排名第一的journal of machine learning research的很多文章，我们都能发现author或者editor中赫然有Lafferty的名字。

Lafferty给人留下的最大的印象似乎是他2001年的conditional random fields，这篇文章后来被疯狂引用，广泛地应用在语言和图像处理，并随之出现了很多的变体，如Kumar的discriminative random fields等。虽然大家都知道discriminative learning好，但很久没有找到好的discriminative方法去处理这些具有丰富的contextual inxxxxation的数据，直到Lafferty的出现。

而现在Lafferty做的东西好像很杂，semi－supervised learning， kernel learning，graphical models甚至manifold learning都有涉及，可能就是像武侠里一样只要学会了九阳神功，那么其它的武功就可以一窥而知其精髓了。这里面我最喜欢的是semi－supervised learning，因为随着要处理的数据越来越多，进行全部label过于困难，而完全unsupervised的方法又让人不太放心，在这种情况下semi－supervised learning就成了最好的。这没有一个比较清晰的认识，不过这也给了江湖后辈成名的可乘之机。到现在为止，我觉得cmu的semi－supervised是做得最好的，以前是KAMAL NIGAM做了开创性的工作，而现在Lafferty和他的弟子作出了很多总结和创新。

Lafferty的弟子好像不是很多，并且好像都不是很有名。不过今年毕业了一个中国人，Xiaojin Zhu(上海交通大学校友)，就是做semi－supervised的那个人，现在在wisconsin-madison做assistant professor。他做了迄今为止最全面的Semi-supervised learning literature survey，大家可以从他的个人主页中找到。这人看着很憨厚，估计是很好的陶瓷对象。另外我在（1）中所说的Jordan的牛弟子D Blei今年也投奔Lafferty做博后，就足见Lafferty的牛了。

Lafferty做NLP是很好的，著名的Link Grammar Parser还有很多别的应用。其中language model在IR中应用，这方面他的另一个中国学生ChengXiang Zhai(南京大学校友，2004年美国青年科学家总统奖(PECASE)得主)，现在在uiuc做assistant professor。

Machine learning 大家（4):Peter L. Bartlett

鄙人浅薄之见，Berkeley CS的Jordan比起同在Berkeley(统计系)的Peter Bartlett还是要差一个层次。Bartlett主要的成就都是在learning theory方面，也就是ML最本质的东西。他的几篇开创性理论分析的论文，当然还有他的书Neural Network Learning: Theoretical Foundations。

UC Berkeley的统计系在强手如林的北美高校中一直是top3，这就足以证明其肯定是群星荟萃，而其中，Peter L. Bartlett是相当亮的一颗星。关于他的研究，我想可以从他的一本书里得到答案：Neural Network Learning: Theoretical Foundations。也就是说，他主要做的是Theoretical Foundations。基础理论虽然没有一些直接可面向应用的算法那样引人注目，但对科学的发展实际上起着更大的作用。试想vapnik要不是在VC维的理论上辛苦了这么多年，怎么可能有SVM的问世。不过阳春白雪固是高雅，但大多数人只能听懂下里巴人，所以Bartlett的文章大多只能在做理论的那个圈子里产生影响，而不能为大多数人所广泛引用。

Bartlett在最近两年做了大量的Large margin classifiers方面的工作，如其convergence rate和generalization bound等。并且很多是与jordan合作，足见两人的工作有很多相通之处。不过我发现Bartlett的大多数文章都是自己为第一作者，估计是在教育上存在问题吧，没带出特别牛的学生出来。Bartlett的文章基本上是第一作者，也可能是因为他是搞统计的，名字是B开头的。

Bartlett的个人主页的talk里有很多值得一看的slides,如Large Margin Classifiers: Convexity and Classification；Large Margin Methods for Structured Classification: Exponentiated Gradient Algorithms。大家有兴趣的话可以去下来看看。

老外搞统计的管得真宽。嗯，in my point of view，Machine Learning 特别是涉及理论构架的一块应该是stat当仁不让的一块领域，而M.L.里面用到的很多algorithmic model 也应该在统计学界获得承认和重视的地位。但其中的艰辛和争论你看 Breiman 2001 年在 Statistical Science上发的那篇文章就体会到了。

其实即使在美国，主流的统计好像不屑机器学习，就像类似SVM不屑神经网络，呵呵。stat系里面大张旗鼓地做 M.L.的几乎也只有 Berkeley stat 和 Stanford stat 两个地方而已，很多在东部的学校，stat很好的地方，对ml的态度都很indifferent的，有很多传统统计学的框框，比如model，比如unbiasedness 等等，让一些正统统计出身的总在心里不接受ml。唉。Harvard stat 那边做bioinxxxxatics 也是算思想很新锐，在美国的统计系中较早引入机器学习的方法的，不过他们那边主要也就是用一下ML中比较新的方法分析一些sequence和SNP的数据，对ML本身theory和 methodology的贡献就我看到的不多。

看看在machine learning里面learning theory都是做什么的出身就知道了stat在ML中的作用。berkeley 和stanford里stat确实是一堆做ML的大牛。问题有的时候不在于是否一定要用什么模型，不管是Bayesians, Frequentists，能符合问题本质的，解决好问题的就是好方法。统计本来的目的就是解决各个应用学科中的具体问题的，在ML中现在的一个大困难就是高维和大数据量的问题，类似的还存在在bioinfomatics，这也是为什么很多ML和stat的人在其中做的原因。而这样一个高维大数据量的问题使得在经典统计方法和教科书中的很多方法都不实用了，所以这是对stat的人一个挑战，也是现在stat在美国非常热门的原因之一。

统计比较好的journals应该是下面这些:
The Annals of Statistics
JASA
JRSS (journal of royal statistical society, series B. 著名的EM算法就发在上面)
Biometrika
Bernoulli

Machine learning 大家（5): Michael Collins

Michael Collins (http://people.csail.mit.edu/mcollins/
自然语言处理(NLP)江湖的第一高人。出身Upenn，靠一身叫做Collins Parser的武功在江湖上展露头脚。当然除了资质好之外，其出身也帮了不少忙。早年一个叫做Mitchell P. Marcus的师傅传授了他一本葵花宝典-Penn Treebank。从此，Collins整日沉迷于此，终于练成盖世神功。

学成之后，Collins告别师傅开始闯荡江湖度肓艘桓鼋蠥T&T Labs Research的帮会，并有幸结识了Robert Schapire、Yoram Singer等众多高手。大家不要小瞧这个叫AT&T Labs Research的帮会，如果谁没有听过它的大名总该知道它的同父异母的兄弟Bell Labs吧。

言归正传，话说Collins在这里度过了3年快乐的时光。其间也奠定了其NLP江湖老大的地位。并且练就了Discriminative Reranking， Convolution Kernels，Discriminative Training Methods for Hidden Markov Models等多种绝技。然而，世事难料，怎奈由于帮会经营不善，这帮大牛又不会为帮会拼杀，终于被一脚踢开，大家如鸟兽散了。Schapire去了Princeton， Singer 也回老家以色列了。Collins来到了MIT，成为了武林第一大帮的六袋长老，并教授一门叫做的Machine Learning Approaches for NLP
(http://www.ai.mit.edu/courses/6.891-nlp/的功夫。虽然这一地位与其功力极不相符，但是这并没有打消Collins的积极性，通过其刻苦打拼，终于得到了一个叫Sloan Research Fellow的头衔，并于今年7月，光荣的升任7袋Associate Professor。

在其下山短短7年时间内，Collins共获得了4次世界级武道大会冠军(EMNLP2002, 2004, UAI2004, 2005)。相信年轻的他，总有一天会一统丐帮，甚至整个江湖。

看过Collins和别人合作的一篇文章，用conditional random fields 做object recogntion。还这么年轻，admire to death！

Machine learning 大家（6): Dan Roth

Dan Roth
http://l2r.cs.uiuc.edu/~danr/

统计NLP领域的众多学者后，我得出了一个惊人的结论，就是叫Daniel的牛人特别多:
大到MT领域成名已久的Prof. Dan Melamed，小到Stanford刚刚毕业的Dan Klein，中
间又有Dan jurafsky这种牛魔王，甚至Michael Collins的师弟Dan Bikel
(IBM Research)，ISI的Dan Marcu，获得过无数次TREC QA评比冠军的
Prof. Dan Moldovan (UTexas Dallas)，UC Berkeley毕业的Dan Gildea
(U Rochester)。但是，在众多的Dan中，我最崇拜的还是UIUC的Associate
Professor，其Cognitive Computation Group的头头Dan Roth。

这位老兄也是极其年轻的，Harvard博士毕业整十年，带领其团队撑起了UIUC Machine
Learning以及NLP领域的一片灿烂天空。其领导开发的SNoW工具可谓是一把绝世好剑，
基本达到了"又想马儿跑，又想马儿不吃草"的境界，在不损失分类精度的条件下，学习
和预测速度空前。什么？你不知道SNoW？它和白雪公主有什么关系？看来我也得学学
"超女"的粉丝们，来一个扫盲了: SNoW是Sparse Network of Winnows的简称，其中实
现了Winnow算法，但是记住Sparse Network才是其重点，正是因为有了这块玄铁，
SNoW之剑才会如此锋利。

近年来Roth也赶时髦，把触角伸向了Structured Data学习领域，但与其他人在学习的
时候就试图加入结构化信息(典型的如CRF)不同，Roth主张在预测的最后阶段加入约束
进行推理，这可以使的学习效率极大的提高，同时在某些应用上，还取得了更好的结果。
还有就是什么Kernel学习，估计他也是学生太多，安排不下了，所以只好开疆扩土。

Harvard出身的Roth，理论功底也极其深厚，好多涉及统计学习理论的工作就不是我这种
学工科的人关心的了。

最后广播一条小道消息，Roth正在招PostDoc，感兴趣的可以联系一下他，呵呵。

机器学习大牛人还有max planck研究院的 Bernhard Scholkopf，他带的应该是除了Jordan以外最大山头了吧。Scholkopf 前两年靠做 support vector 和 kernel methods 贡献了很多成果。

耳熟能详的机器学习大牛人还有CMU的Avrim Blum。我认为华人里面做ML做的最好的是IBM的Tong Zhang。这个Tong Zhang确实牛，经常看到他一个人发的paper。

0%(0)

	实用资讯

回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉：海航获五星
海外华人福利！在线看陈建斌《三叉戟》热血归回豪情筑梦 高清免费看无地区限制

一周点击热帖

更多>>

一周回复热帖

历史上的今天：回复热帖

2004:	斯坦福大学是如何押宝Google终结硕果的
2003:	科学成功经验谈----James D. Watson
2003:	学术期刊之十大怪现状
2002:	牛满江教授解说基因之谜、解说世纪人生
2002:	普林斯顿大学处于不败之地的秘诀：求精