| 一、语言的编码效率 |
| 送交者: 后桥 2007年05月16日16:16:51 于 [教育学术] 发送悄悄话 |
|
语言究竟是什么呢?语言是一套编码系统。人类的语言和电子设备的通信协议,本质上是一样的。就是我有信息,我通过这套代码和协议传送给你,你接受到我的信息并且理解,我们完成了这个交流的过程。(我觉得没有学习过电子工程的语言学家们可能不能从这个角度理解语言,所以有时候会冒出些偏颇的结论。) 语言有两个方面,口头和书面。人类语言都是从口头语言发展起来的,成熟的语言会发展到书面形式。如果这么理解的话,口头和书面好像是一个事物的两个方面。但是如果你从编码的角度理解,你就会有个新的视角——口头和书面是两套代码,一套音频代码,一套视频代码。这两套代码是个多对多的映射关系。口头和书面,不如我们想象中的联系那么紧密。 从这个结论出发,我们会得到很多推论。随意的举几个例子: 有人说汉字的效率高,因为同样的一篇文章,肯定是中文的最短。我并不是太确定。这里面有个字体大小的问题。你必须有个标准。比如,把字体调到能让人能看清的最小限度,在同样面积的里面,究竟哪种语言能传送更多的信息。我没有明确的结论。 从书写的角度,汉字的速度显然慢。所以汉字才被简化以提高书写速度。 显然汉字可以进一步简化而不引起歧义。为了提高效率,越简化越好吗?不是的。编码学还有另一个指标,叫做容错。一条信息的冗余越小,它的容错率就越差。比如英语也可以简化,就是缩写。Quantity可以缩写成Qty而不引起任何歧义,但是容错能力巨减。如果你错写一个字母或者少写一个字母,比如写成Quatity,读者可以猜测你的意思,但是如果Qty变成Qt,读者就是错误理解为quarter。所以效率的提高是以牺牲容错能力为代价的。 汉字的书写速度慢,但是阅读速度快。因为汉字接近图形,而人对图形的反应比对字符的反应要快得多。所以你看软件菜单里,有的干脆用汉字作图标(让不认识汉字的人使用汉字图标!) 因为汉字的传出(书写)成本高,传入(阅读)成本低,可以得出一个有趣的结论是,汉字在大规模信息传递中,效率比其他语言高。也就是说,假设所有人都懂汉语和英语,纯粹以效率来衡量,一对一的书面交流应该用英文,出版报纸则应该用中文。 纸面书写是传统方式,在计算机时代,键盘输入和硬盘内存储存是新的衡量标准。结论也是显而易见,汉字输入慢,汉字存储密度高。中文输入法仍然是个软点。 讲完书面讲口头。 代码集大的系统有优势。汉语的优势在乎声调。汉语有四声,再加上轻声,共有5种声调, 21个声母,35个韵母。英语有28个辅音,20个元音。这个差别还是比较大的。 一个比较合理的计量方法是: 英语。Pen,计作2,道理与汉语相同。Language要计作6,因为它有l, an, g, u, i, ge。Select要计作6,这里的每个字母都发音。汉语的拐声被多计一个数,相应的,英语的长音要计作2,比如cheese要计作4,因为它用时略长。 注意上面不是我们常说的音节,我算得比较细,权且称为“音数”吧。 常见的日常词汇里,大概四五个音数就搞定了。但是英语稍微复杂一点音数就开始增长,即使像常见的finish, prepare, tooth paste。flower是个更过分的例子,这么常用的词竟然有5个音。 而中文词汇基本上都用两个汉字,到四个汉字就到了成语的领域。(成语需要单独讨论。古语的信息载量更大,四个字顶一句话。)中文里四个以上的词汇极少。即使像“绻缱”这么罕见的词都是两个字。 再据个例子,“造”是基本的通用的字,“盖”精确一些涵盖面小一点,“建设”算是比较高级的词。他们的音数分别是2,2,5。对应成英文:make, build, construct。音数分别是3,4,7。稍微复杂一点单词就变长了。 |
|
![]() |
![]() |
| 实用资讯 | |
|
|
| 一周点击热帖 | 更多>> |
| 一周回复热帖 |
| 历史上的今天:回复热帖 |
| 2006: | 傅新元希望更多海外教授签名防止文革式 | |
| 2006: | 为什么科学工作者必须出示原始纪录或原 | |
| 2005: | 我看李政道与杨振宁的决裂及其他 | |
| 2005: | 康兰兰:命运拐了一个弯 | |
| 2004: | 让美国人不惜一掷千金的名牌大学 | |
| 2004: | 公办中小学不宜实行校长年薪制 | |
| 2003: | 不要搞运动! | |
| 2003: | 中国应建立一个怎样的 NIH | |
| 2002: | 也谈“填鸭”式教学 | |
| 2002: | 诺贝尔物理学奖离我们有多远 | |




