從ACM會議看中國大陸計算機科學與國外的差距(初稿)
靈芯
本文分析中國大陸學者在ACM各個會議中論文發表情況。希望以此了解中國
在計算機學科的各個分支中所處的地位。找出那些分支是中國的強項,那些分支是
中國的弱項,那些分支中國還處在空白狀態。為計算機科學發展決策提供參考。
ACM名下的計算機專業會議涵蓋了計算機科學的幾個主要分支最高水平的
會議。其中包括集成電路設計方面的DAC,ISSS,ICCAD會議,體繫結構方面的ISCA和
MICRO會議,超級計算方面的SC和ISC會議,程序語言方面的POPL,PPDP會議,操作
系統方面的SOSC會議,數據庫方面的SIGMOD和PODS等等。儘管還有許多重要的會議
不在ACM會議集之中,但是對ACM會議論文發表情況依然可以成為衡量一個國家計算
機科學研究水平的重要依據。
這項研究工作是業餘進行的,所以沒有使用那些需要付費的論文數據庫系
統。研究方法是使用PERL程序直接從ACM網站[4]上抽取出所有的會議論文網頁,再
從這些網頁中抽取出每篇論文第一作者所在單位和國別,然後用AWK程序計算每一種
會議中各個國家的論文數,最後把各個會議中中國的論文數同其他國家的論文數進
行比較。
由於一些文章的作者單位欄中沒有包含國別,所以這項統計只是一個近似
的結果。中國大陸的文章通常寫明China,所以遺漏中國論文的情況很罕見。此外,
我們把單位名中包含Beijing,Pekin,Shanghai等關鍵字的記錄都統計在中國論文
內。中國台灣省和香港特區作者的單位名中有時也包含China,統計程序把這些記錄
都排除。本文中除特別說明之外,“中國論文”專指只中國大陸學者的論文。統計
中,遺漏其他國家論文的情況相對多一些,比如加拿大多倫多大學有時不標明加拿
大,因此,對其他國家論文數的統計可能偏少,但不會差的很遠。美國的單位一般
不含國名,因此目前程序還沒有統計美國的論文總數。作為一個替代,程序統計了
美國加州的論文數。程序運行結果表明,美國加州的論文數通常高於其他發達國家
平均數的數倍。下面會看到,中國同美國加州的差距已經很大。
網絡上抽取論文信息的程序日夜運行整整一個星期,共收集了ACM173個
會議總共八萬多篇論文。這個收集工作包含了大部分ACM會議,個別只有一兩年會議
歷史,尚無歷史文檔的會議沒有統計在內。附錄中列出在每個會議中中國的論文數,
占總數百分比以及同國外的比較。
統計結果顯示,在這173個會議中,中國論文超過100篇的會議有三個,
它們是:
會議 中國 占總數 美國 六個發達國家
代號 論文數 百分比 加州 平均數
AICPS 167 3.85% 136 174
ASPDAC 102 7.23% 161 47
MM 102 5.91% 174 58
上表中的中國論文數指中國大陸學者在該會議中歷年發表的論文總和。
為了比較,我們同時列出中國論文數占會議論文總數的百分比,美國加州在該會議
中的論文總數,六個發達國家(德,法,意,加拿大,澳大利亞和日本)論文總數的
平均值。該表顯示中國在這三個會議中的情況比較好,論文數超過或接近幾個發達
國家的平均水平。但是在ASPDAC和MM會議中只有美國加州論文數的2/3。
在上述三個會議中,AICPS是一大批會議的總和,其中有些是地區性會議,
有些是近年的專業會議;ASPDAC是南亞地區的集成電路設計會議。雖然地區性會議
不一定代表專業領域的最高水平,但是上述數據也表明中國在集成電路研究方面的
活躍。在該會中,清華大學表現最為出色,論文數為56篇,占了中國論文數的一半
以上。MM是國際多媒體會議,在這個會議上中國論文數超過六個發達國家平均數幾
乎一倍,說明中國已在這一領域進入國際先進行列。在MM中國論文中,微軟中國研
究所36篇,清華27篇,其次是中國科大和浙大。
中國論文數在10篇到99篇之間的會議有8個,它們是:
會議 中國 論文 中國論文 美國 六
個發達國家
代號 論文數 總數 占總數百分比 加州 平
均數
SIGGRAPH 10 2165 0.46% 190 44
CSC 11 1150 0.96% 37 11
VRST 12 281 4.27% 13 10
CIKM 16 1014 1.58% 68 30
ISSAC 17 714 2.38% 23 45
SAC 23 2117 1.09% 84 76
SIGIR 28 1352 2.07% 50 36
WWW 36 731 4.92% 97 25
其中互聯網會議WWW和虛實體軟件會議VRST的論文數超過論文總數的4%,也
超過了六個發達國家的平均數。VRST中表現突出的是浙江大學,占了12篇論文中的
7篇。其次是符號代數計算會議ISSAC,信息檢索會議SIGIR以及信息和知識管理會議
CIKM,中國論文數占總數的1.58%到2.38%之間。圖像學和交互式系統會議SIGGRAPH雖
然有10篇論文,但只占會議論文總數的0.46%,是發達國家平均數的1/4,是美國加
州論文數的1/19。在這個領域中國同國際水準差距很大。CSC(計算機科學)和SAC(應
用計算)兩個會議從名字上看難以歸入專業會議,其水平需要內行專家來評價。
在上述“中國論文”中,有很大一批是微軟中國研究院的論文,還有一些
是中國研究單位同國外合作的成果。比如SIGGRAPH 的10篇論文中有9篇來自微軟,
另一篇文章是復旦大學同美國加州DAVIS 大學合作成果。微軟中國的論文在WWW中占
了9篇,在SIGIR中占了12篇。
如果按論文占會議總數的百分比排列,那麼中國論文占論文總數2%以上的會
議一共有13個:
會議 中國 論文 中國論文 美國 六
個發達國家
代號 論文數 總數 占總數百分比 加州 平
均數
DOLAP 2 100 2.00% 0 4
SIGIR 28 1352 2.07% 50 36
Middleware 1 47 2.13% 4 1
ISSAC 17 714 2.38% 23 45
ASE 4 162 2.47% 6 6
CF 3 108 2.78% 7 4
WIDM 3 101 2.97% 4 3
GRAPHITE 5 159 3.14% 0 5
AICPS 167 4333 3.85% 136 174
VRST 12 281 4.27% 13 10
WWW 36 731 4.92% 97 25
MM 102 1727 5.91% 174 58
ASPDAC 102 1410 7.23% 161 47
除上面分析過的幾個會議之外,其他幾個會議規模比較小,其中每個會議
中中國論文總數不到5篇。
這次分析的ACM會議總共有173個,上面13個會議不到會議總數的8%。下面
是按照中國論文占會議總數的百分比列出中國論文在ACM會議中的分布情況:
中國論文占會議 會議數
論文總數百分比
> 2% 13
>1% 30
> 0% 76
= 0 97
上表顯示,在97個ACM會議中,中國沒有一篇論文,這些會議占了本次統計
的ACM會議總數的56%。
下面對ACM會議的幾個大方向做進一步的分析。
核心領域論文發表情況
一。集成電路設計。
設計自動化會議(Design Automation Conference(DAC))是ACM在集成電路
領域歷史最悠久的會議。自1964年以來的42年中,該會議上共發表過的3281篇論文,
其中中國的論文只有9篇,僅占論文總數的0.27%。相比之下,法意德在該會議中的
論文數分別為:43,36,99,高出中國4倍到10倍;南朝鮮和台灣的論文數為:36和
56,高出中國大陸4倍到6倍;美國僅加州一地在該會議上的論文數就達673篇,高出
中國七十幾倍,中美間的差距之大幾乎無法衡量。
在中國的9篇論文中,有6篇是同美國大學或公司合作的論文,3篇完全獨
立寫成的文章全部是15年前寫的。
值得指出的是,清華大學的論文占了9篇中的6篇。
下面是集成電路設計相關的幾個主要會議上中國論文發表情況(南亞地區
會議ASPDAC沒包括在內):
會議 中國 論文 中國論文 美國 六
個發達國家
代號 論文數 總數 占總數百分比 加州 平
均數
CODES 0 398 0.00% 51 14
ISSS 0 322 0.00% 53 14
SBCCI 0 111 0.00% 6 5
DATE 3 1414 0.21% 120 51
DAC 9 3281 0.27% 673 59
ICCAD 5 1483 0.34% 342 25
EuroDAC 2 487 0.41% 48 26
ISLPED 4 746 0.54% 116 17
FPGA 5 459 1.09% 100 15
ISPD 6 338 1.78% 88 5
GLVLSI 7 368 1.90% 34 9
總計 41 9296 0.44% 1625 235
在這些會議中,清華大學的論文數為21篇,占中國論文數一半以上。顯示出
清華大學在集成電路研究方面的國內領先地位。尤其是在物理設計領域,清華占了
6篇論文中的5篇。另外,復旦大學在FPGA領域比較突出,占了5篇論文中的3篇。
整體而言,中國在上述集成電路會議中的論文數不到六個發達國家平均數的
1/5,相當於美國加州論文數的1/40。相比之下,中國在物理設計(ISPD)和可編程邏
輯(FPGA)方面情況稍好,在系統設計(CODES,ISSS,SBCCI)方面的研究最差。其次
是設計測試(DATE)和設計自動化(DAC,ICCAD,EuroDAC)。
下面是這幾個會議的中文簡稱,開始年份和論文錄取率情況。
代號 中文簡稱 起始年 錄取率
CODES 軟硬件協同設計 94 30%
ISSS 系統綜合 94 35%
SBCCI 集成電路與系統設計 97 34%
DATE 設計與測試 98 21%
DAC 設計自動化 64 30%
ICCAD 輔助設計 92 26%
EuroDAC 歐洲設計自動化 90 無
ISLPED 低功耗設計 95 32%
FPGA 可編程邏輯 95 50%
ISPD 物理設計 97 無
FPGA 可編程邏輯 95 50%
GLVLSI 大湖區集成電路 00 無
二。體繫結構
在體繫結構方面,中國的論文發表情況比集成電路更差。在有33年歷史的計
算機體繫結構權威會議ISCA中,中國的論文數是零。 在微體繫結構會議MICRO上,
中國有9篇論文,占論文總數的1.48%,可是這些論文都是在1994年之前的,大部分
是在85年到88年之間所做,95年之後一篇論文也沒有。僅從論文數量看,最近十年
中國在體繫結構方面的學術研究不但沒有前進,反而出現倒退。這種情況可能同中
國當前的“芯片熱”有關,許多研究人員轉向了芯片的產品開發,離開了體繫結構
的學術研究。另一個原因是有能力在這些重要會議上發表論文的學者轉到了國外,
比如在MICRO上發表了4篇論文的清華學者Bogong Su先生,現在在美國William Paterson
大學工作,總共發表了34篇論文。
下面是ACM會議中幾個主要的體繫結構有關的會議中,中國論文的發表情況:
會議 中國 論文 中國論文 美國 六
個發達國家
代號 論文數 總數 占總數百分比 加州 平
均數
ASPLOS 0 264 0.00% 41 2
CASES 0 196 0.00% 28 4
ISCA 0 992 0.00% 116 11
PACT 0 67 0.00% 3 0
SPAA 0 559 0.00% 56 18
SC 1 1229 0.08% 143 16
ICS 1 729 0.14% 46 20
MICRO 9 608 1.48% 68 6
Total 11 4644 0.24% 501 77
在這七個會議中,中國在五個會議中的論文數是空白。超級計算會議SC中
唯一的一篇論文是北京基因組研究所的計算機應用論文,不能算作體繫結構方面的
論文;另一個超級計算會議ICS的論文是計算所編譯組同INTEL和DELWARE大學合作的
論文;MICRO方面的9篇論文是10年前的論文。換句話說,中國在最近十年內,在ACM體
繫結構方面的論文是空白。
當然,這並不等於說中國在體繫結構學術研究方面是空白。在ACM之外,還
有相當一批重要的體繫結構會議,比如ISCIS,HPCA,ICCD,ASAP等等。但是中國在
ACM會議中的情況,畢竟反映出中國在體繫結構方面研究力量的薄弱。
另外,下表顯示,ACM這幾個會議都是論文競爭相當激烈的會議,尤其ASPLOS,ISCA和
MICRO這幾個歷史長久的會議,錄取率僅在20%,五篇論文中只錄取一篇。中國在這
些會議中沒有論文,至少說明中國缺乏高水平的研究工作。
下面是上述ACM體繫結構會議的中文簡稱以及論文錄取率等信息:
代號 中文簡稱 起始年 錄取率
ASPLOS 對語言和操作系統的體繫結構支持 73 20%
CASES 嵌入式系統編譯,體繫結構和綜合 00 25%
ISCA 體繫結構 73 20%
PACT 並行體繫結構及編譯技術 93 無
SPAA 並行算法和體繫結構 89 37%
SC 超級計算 88 24%
ICS 超級計算 89 30%
MICRO 微體繫結構 73 20%
三。軟件工程,數據庫和人機界面。
在這個欄目下面,我們把軟件工程,數據庫,交互式系統,文檔,超文本的會
議都放在一起。這種分類可能會有爭議。但是從我們提供的數據中不難分析出各專
門領域的情況。下面是歸在此類的所有會議:
代號 中文簡稱 起始年 錄取率
ISSTA 軟件測試與分析 73 20%
SIGSOFT 軟件工程基礎 82 25%
ICSE 軟件工程 76 17%
PODS 數據庫系統原理 82 22%
SIGMOD 數據管理 74 17%
VLDB 超大規模數據庫 82 無
SIGIR 信息檢索 71 20%
SIGDOC 計算機文檔 82 50%
UIST 用戶界面軟件與技術 88 21%
ICIS 信息系統 89 無
IUI 智能用戶界面 89 30%
CHI 計算機系統中人的因素 77 20%
DIS 交互式系統設計 95 無
HT 超文本 87 40%
SV 軟件可視性 73 20%
SSR 軟件可重用性 95 43%
SCM 軟件配置管理(workshop) 89 無
WOSP 軟件與性能(workshop) 98 55%
在這些會議中ISSTA,SIGSOFT,ICSE是軟件工程方面的主幹會議,論文錄
取率在20%左右。在這三個會議中,中國的論文總數是6篇,占全部論文數的0.21%。
其中SIGSOFT的三篇文章全部是北大的。ICSE中也有一篇北大文章。
SIGMOD和PODS是數據庫方面的主要會議。前者錄取率為35%,上面有9篇中國
論文;後者錄取率只有18%,該會議上唯一的一篇中國論文是重慶大學Ke Wang所寫
的論文,但時間是17年前。
SIGIR信息檢索會議是這批會議中中國論文最多的一個會議,中國共有28篇
論文,占總數2%多。在這批論文中,微軟占了12篇,其次是清華大學5篇,其中有2篇
是同微軟合作成果。
在用戶界面會議方面,中國在IUI會上的論文占論文總數0.84%,這個比例在
各個會議中占第二名。IUI的5篇中國論文中有3篇出自北京中科院。
會議 中國 論文 中國論文 美國 六
個發達國家
代號 論文數 總數 占總數百分比 加州 平
均數