设万维读者为首页 广告服务 技术服务 联系我们 关于万维
简体 繁体 手机版
分类广告
版主:诤友
万维读者网 > 教育学术 > 帖子
SCI作为评价标准存在的问题
送交者: 397 2004年06月13日15:47:23 于 [教育学术] 发送悄悄话

SCI作为评价标准存在的问题

目前,我国不少科研评审机构往往根据论文被SCI收录的数量,以及发表论文刊物影响因子的大小或论文的引用率,做出论文质量高低的判断,从而给各个研究团体或个人做出评判。刊物的影响因子是指:某刊物前两年所发论文在第三年被引用的总次数,与该刊物前两年发表的可被引用的论文总数之比。在发表论文总数一定的情况下,影响因子直接决定于总体论文被引频次的高和低,因此,采用影响因子来说明论文质量的高和低,实际上还是以引用率的大小决定论文质量。我们将在本文分析,由于SCI引用率统计数字存在诸多不确定因素,导致利用SCI作评价标准并不完全可靠。

1. 引用行为动机的复杂性,使SCI的引用率统计数字不能绝对可靠

引文概念是建立在这样的前提之下的,即论文作者吸收利用了参考文献(被引用文献),引文分析法通过统计、加工和分析,得出具体某一篇论文作为参考文献的被引用率,以此作为这篇论文质量高低的衡量标准,但对引文活动中不可计量因素则无法体现。从实际的科学活动看,人们在使用引文索引的过程中,常常不难发现其获取的被引文献有些与正文关系不大,有些甚至风马牛不相及,存在着可靠性差的特点。尽管这可能与索引编制中的技术因素以及人们的检索技巧有关,但很重要的原因还在于文献作者引用行为的不规范。实际上,人们发现,论文作者的引用行为具有复杂性和多样性。诸如以下几种引用行为:转引,对自己没有亲自查阅过的文献从别人论文的引文中加以引用;崇引,不从实际需要出发,为了装点门面,盲目搬用“权威名著”,或故意使用一些时髦的术语名词;不恰当的自引,著者引用自己的文献表明研究工作的连续性,但有的著者喜欢引用自己已经发表的与著文主题关联不大或毫不相关的文章,以此扩大自己的学术影响;除以上所说的崇引和自引之外,人们还发现这样一种现象,有些论文作者故意引用多种语言的文献,或者故意在参考文献中列出一些根本没有引用过的文献,甚至抄袭别人的引文。荷兰科学家曾无意中发现,一篇论文在第一次被引用时出现错误,后来就能发现相同的错误会重复出现在另外数篇论文中。

以上几种引用行为的共同特点是:论文的作者在参考文献中列出了一些与论文内容无关的引文,我们把这些引文行为称为伪引。有人对结构工程领域的21位杰出科学家的最近发表的42篇论文(每人两篇)进行过统计,这些论文总共引用344篇文献,人们发现以上所说的伪引的参考文献竟占50%。这足以说明伪引现象的普遍性,在这种情况下,我们对引文索引的统计数字,不加分析地拿来使用,甚至作为科研成果的重要评价标准,就很难保证引用率数字的可靠性。

2. 漏引现象的存在,也影响引文统计的准确性

同伪引相反,科学界还存在这样一种引文行为,有些论文作者实际上引用了别人的文章,但他们在自己的论文中,只列出曾经引用过的部分参考文献,这种现象就是漏引。论文作者没有列出的另一部分参考文献,我们称之为漏引文献。研究表明,漏引现象相当普遍和严重,有人研究过在15篇遗传学发展史方面的论文中,全部漏引文献竟占应引文献的70% 。

造成漏引现象,既有主观原因、也有客观原因。减少漏引,需要论文作者和刊物编辑部门的共同重视和努力。伪引和漏引现象的存在,都反映一篇论文的被引用率,和其客观真实的科学影响还存在一定的偏差。尽管根据人们的统计分析,论文的引用率一般都能较准确地反映论文的质量,但伪引和漏引现象存在的广泛性和严重性,使我们不能确保根据SCI统计所得的引用率数字绝对真实客观,而当我们把SCI作为普遍的评价标准时,大量的质量和引用率较相近的论文,因这方面原因造成的误差干扰就会更加明显。

3. 引用率在不同学科之间也存在不可比性

SCI的引用率被人们用作为评价论文质量高低的一个重要指数,按照引用率的观点,一篇论文的引用率越高,涉及的学科越广泛,表明这篇论文的价值和影响就越大。然而,实际上人们发现,由于统计源的学科结构差别,以及各个学科自身发展的特点和特有引文行为的不同,如科学家研究行为的社会性,学科间交叉渗透的程度,学科发展所处的阶段等,引用率在各个学科之间具有较大的差异性,由此产生了不同学科论文之间引用率的不可比较性。如物理、生化研究方面的任何发现,都会被国际同行重视和引证,研究论文被上百次引用的情况也不少见。而地学、植物学等,由于研究对象具有很强的地域性,研究论文被同行引用的情况相对就少许多,这与论文的实际水平并没有根本的关系。

对于引用率在不同学科之间存在差异性,SCI的出版物中也有较多的说明,“(在ISI索引体系中)某些领域,例如天文学和数学,始终如一地是(处于)低被描绘(情况)。你可能认为其‘明显’原因是数学家人数比,譬如说,生物化学家为数少些,或者你也可能想这是因为生化文献量比数学的文献量大。但在关于生化杂志的一份详细研究中我指出,原因(不只一个)而且并非如此明显。”“生物化学家平均比数学家更多地被引述是因为生物化学的论文(所列出)的参考文献一般约为数学论文中列出的参考文献的3倍。此外,虽然文献总量的多寡不影响各篇论文本身的影响力,但却影响了引述的出现频率的范围。”“生物化学中的一个重要的方法,可能每年在各种生命科学的数千篇文章中被引用。但对纯粹数学而言,被引用最多的文章也绝对达不到这个数字,因为每年总共才只有约40 000篇纯粹数学论文被发表。”

需要指出的是,即使是同一学科,不同专业方向的论文和作者,他们论文的被引用情况,也有很大差别。如1965年—1978年被引用最多的1000名科学家中,理论化学的作者人均被引5227次,分析化学的作者人均被引2822次,物理化学、有机金属化学、无机化学和有机化学的作者人均被引次数在3600—3800次左右。由此可见,学科间的SCI数据不具有简单的可比性。

4. 某些论文获得较高引用率在时间上的特殊性,也使引用率统计结果不尽准确

包括普赖斯在内的一些学者在对大量引文数据进行分析的基础上,认为“文章被引用的峰值是在该文章发表以后的第二年”,从普遍的意义上,这与论文的实际被引用情况相符合。根据何荣利等对40种学报在3年内发表的9592篇论文的统计,基础学科、生物学科、农业学科和应用学科不同种类文献被引用率随时间变化情况(称为文献使用寿命)也不同,基础学科文献使用寿命长,而应用学科文献使用寿命短。加菲尔德曾把被大量引用的论文的被引用情况分成5种类型:高速飞弹型、流星型、迟开之花型、双峰型和持久型。

由于不同学科发展历史状况不同,以及事物发展和人们认识的差别,尽管整体上论文的最大引文年限一般在论文发表后的第二年,但实际上存在着很多特殊情况,而科学论文的评审时间总有一定的界限,因而必然存在一些论文,可能因为内容的深邃性或学科发展的不完备,在人们评审的时间段内引用率并不高,但在某个时间段之后却会获得较高引用率。科学史上不乏这样的例子,若一味地以引用率大小来论成败,就难免有失偏颇。

5. 仅仅依据引用率一项指标,不能说明真实情况,也难以令人信服

按照目前的科学评价趋势,SCI是以论文的引用率来衡量论文质量高低的,通常情况下,论文的引用率越高,则论文的质量被认为越好。然而,人们发现,有一些论文具有较高的价值,但它们却并没有较高的引用率,相反,有些因观点错误而被批评的文章被引频次却相当高。例如,有这样一些研究论文,起着结束某些研究领域的总结性作用,它们在以后可能将很少被引用,但不能说他们的论文和研究工作并不重要。也有这样一些论文,因观点已被广泛传播,并为众人所熟知而不加引用;或者一些重要的论文在发表不久后即被他人类似的重要论文所代替,而很少再被引用,按照SCI引用率统计,这些论文的引用率也许并不高。在科学史上,不难发现这样的事实,爱因斯坦(Albert Einstein,1879-1955)发现了相对论,并发表了关于相对论的重要论文,沃森(James Dewey Waston,1928--)和克里克(Francis Harry Compton Crick,1916-)发表的关于DNA双螺旋结构的论文,都是划时代的伟大发现,却都因为发表以后不久便被认为是普遍承认的常识,而并未能得到应有的高引用率。另一方面,科学史上也发生过这样的事情,有一些科学论文,在它们发表以后,得到了很高的引用率,但过后却发现这些论文并没有什么价值,甚至这些引用率很高的论文,原来都是错误的。1903年,在阴极射线、X射线、贝克勒尔射线发现之后不久,关于射线的研究风行一时,这时著名的法国物理学家伯劳得老宣称自己也发现了一种新射线,为了纪念他家乡的城市Nancy, 他把它命名为“N射线”。在数年中,在最著名的科学杂志上,发表了超过100位科学家的300多篇关于这一发现的论文。而且,还有许多科学家致力于重复伯劳得老的试验(因伯劳得老宣称缺乏所需的实验器材),甚至,有超过40位的物理学家声称检测到这种射线,但后来这一发现却被证明仅仅是人的错觉。由此可见,如果仅仅根据引用率来评定科技成果,就很难完全评定出经受起历史考验的研究成果,有时甚至会评出错误的结果。

对引用率高的论文的看法,有一些被引科学家,其中也包括相当一批诺贝尔奖获得者,就认为引用率高,并不一定就表示论文很重要,海涅·富兰克·卡润特(Heine Fraenkel-Conrat)及其合作者都认为,每人至少可推出比被引最多的那篇更重要的另外10篇论文。往往一篇论文被大量引用,并不是出于它内容的精辟,而是由于它里面所谈方法的新颖。相当普遍的看法认为,被大量引用的论文中,方法方面的论文占很大优势。例如,一位名叫Oluver Lowry 的人在1951年所写的一篇关于方法方面的论文,到1990年被引用已经超过了20万次。

6. 因文献收录不全而导致较大的漏检率,限制了SCI评价的全面性和公允性

引文索引不仅以文献的引文条数决定文献在索引中重复著录的次数,而且该文献有多少次被引证就得著录多少次,造成整个索引体系极其庞大,编制工作量大、价格也昂贵。这造成它不便于被收藏和普及,尽管有这样庞大的体系,但SCI 仅收3300种期刊反映全部自然科学研究的引文情况,而目前全世界科技期刊总数约10万种,每年发表论文不下300-400万篇。由此可知,无论怎样选择期刊,也难免收录内容的疏漏,使相关文献的查全率较低,从而影响引文检索的效果。因此作为面向全部科技领域的综合性索引体系,SCI实际上并没有覆盖世界上所有的学科领域,而只能覆盖重要的、公认的、主流的学科,对一些局部的研究领域就无法反映,因此也无可避免地会导致漏检的存在,既然存在漏检,也就使其评价的全面和公允性受到限制。

7. SCI来源期刊地域分布不平衡及语言障碍等因素,使SCI不适于作为我国通用的评价标准

SCI来源期刊的地域分布存在着明显的不平衡性,与各个国家或地区的科技水平与综合实力并不完全成正比。在来源期刊的收录上,ISI侧重于美国及母语为英语的地区及英文科技期刊,一些高水平的科技刊物往往由于出版地或语言因素而没有被选收。对我国来说,近几年所使用的SCI数据中我国期刊的采用一直很少,1997年SCI印刷版收录中国期刊仅有9种,我国出版的数十种数学专业杂志竟都未被选收,这直接导致了SCI对中国学者的报道偏少,很难设想用这样一个评价标准可以涵盖多数中国数学学者的工作。因此,以SCI为参照,鼓励部分科技人员向世界最高水平冲刺,和用SCI为标准,评价所有科技工作者的日常科研成果,是两件相互联系又不尽相同的工作,混淆二者的区别,就可能导致将SCI标准的滥用,非但不能充分调动多数科学工作者的积极性,反而可能导致群体科研信心的散失。

被SCI收录的科技论文,一般都用英语书写或至少要用英语规范书写文摘,对1997年SCI收录我国科学家的论文情况进行统计:收录总数为10,033篇,其中8,325篇发表在国外刊物上,占发表总数的83%,国内发表仅有1,708篇,占17%;而从语种分布上看,以英语撰写的论文有10,011篇,占论文总数的99.78%,以中文撰写的仅有10篇,占0.09%,以法、德、俄、日文撰写的论文为12篇,占0.12%。可见,东西方语言差异,不利于我国科技成果走向世界。在这里,我们该思考另一个问题:尽管我国近几年来一直重视英语教育,但对我国学者总体来说,像用汉语一样流利准确地用英语书写论文,还是有一定难度的,而英文书写不规范,也是我国科技期刊难以入选SCI的一个重要原因。那么,如果仅用SCI一个标准,就难以评价以中文发表在国内期刊上并且没有被SCI收录的高质量论文。例如,1991年-1995年间,我国著名神经外科专家王忠诚院士在脑外科研究上取得了重要的科学成就,他工作的单位被联合国列为世界三大基地之一。王忠诚院士在这段时间里发表了14篇论文,其中13篇发表在《中华神经外科杂志》上,一篇在《天津医药》上,但SCI上只有他的一篇论文,还是发表在SCI所收录的我国英文版期刊《Chin. Med. J.》上。又如,我国已故著名数学家、北京大学的廖山涛教授前些年关于微分动力系统的研究结果,都是国际第一流的成果,但并没有在国外发表。

事实表明,地域分布及语言障碍等因素,使我国一些有影响的科技论文,在SCI计量中无法获得较高的引用率,因此也影响了SCI标准对中国学者评价的准确性。

8. SCI对多作者合作论文的荣誉归属方式,不利于实施科研合作

当代科学研究的一个重要特点,就是科学研究的群体化,由于多学科、跨学科研究的迅速发展,多位作者合作的论文大量出现。在SCI索引体系中,可提供来源文献的前8-9位作者的姓名,如果我们要检索某人论文被SCI收录的情况,只能检索到作为第一作者的全部信息,他与别人合著的并以非第一作者出现的论文则无法反映,这样就等于一篇论文的荣誉全部被归于第一作者。关于如何划分多作者合作论文的贡献大小问题,争议一直较多,SCI把全部贡献看作为第一作者的,操作中我们认为有很多不合理的一面,许多时候,科研论文的作者对论文做出的贡献可能大体相当,甚至一些论文并不是按照个人贡献大小来排列作者顺序的。现实社会中,科研合作的形式及范围也是极其广泛而复杂的,如不同单位间的合作,各国对合作署名顺序的习惯安排不尽相同等等,按照SCI,非第一作者的单位,将不能直接检索到本单位人员在科研合作中的贡献。因此,如果我们完全以SCI反映的论文数及引用率数字去评价科研成果,而不作具体分析,将极其不利于科研团体及个人之间科研合作的开展,长期下去,将非常不利于科学的正常发展。

9. 使用“SCI标准”,不适合于评价应用研究成果

联合国教科文组织把科学技术研究工作分成三个层次:基础研究、应用研究和开发研究。其中只有基础研究成果主要表现为科学论文、专利等形式,也最适于利用SCI进行评价;而应用研究成果的价值主要体现在应用前景上,开发研究成果的价值则表现在商业价值的实现方面。虽然这些研究工作成果都会以科学论文形式表现出来,但人们发现,技术类研究成果的论文,被引用率要比基础研究方面论文的被引用率低得多,技术类研究成果的论文,每篇论文的平均引文量也要比基础研究方面论文的平均引文量低得多。如果采用一刀切的做法,对全国各科研机构、高等院校等,不管他们的具体研究状况,非要给他们定出SCI中的论文数及引用率指标,由此形成的社会压力对我国科技的发展显然是弊大于利,甚至导致基础研究和应用开发研究比例关系的失衡。

除了以上几点外,SCI作为评价标准还存在其它一些问题,例如有人指出SCI索引体系编制时间较短,不如一些有着悠久历史的传统的分学科的检索工具优越;当某些刊物在世界上以多种语言出版时,这些刊物上论文的引文会被重复统计,给引用率统计带来误差;在某些特殊领域,比如一些涉及国家机密的国防科技研究,由于其控制传播性,也无法利用SCI引用率作评价标准等。凡此种种都表明,把SCI评价标准绝对化,极可能导致我们对科研成果最终评价的判断失误。

0%(0)
0%(0)
标 题 (必选项):
内 容 (选填项):
实用资讯
回国机票$360起 | 商务舱省$200 | 全球最佳航空公司出炉:海航获五星
海外华人福利!在线看陈建斌《三叉戟》热血归回 豪情筑梦 高清免费看 无地区限制
一周点击热帖 更多>>
一周回复热帖
历史上的今天:回复热帖
2003: 我所认识的沈校长
2003: 我亲见亲历的荒唐工程
2002: 普林斯顿大学数学系的崛起
2002: 2001年的世界科技竞争和发展