http://bbs.creaders.net/education/bbsviewer.php?trd_id=352831其他所谓的一些问题,不见得正确。有人说,英文熵(英文字母的平均信息熵)低,只有4.03比特,而汉字熵高达9.65比特,所以中文的信息处理效率特别低。而汉字优越论者却认为这是汉字的优点,熵就是信息量,熵高即含信息多。汉字形体复杂,分辨率高,确是优点,不过熵大却不是好事。平均熵的含义是,用最好的编码方法,平均一个字至少要多少比特(二进制位),当然是愈小愈好。但这里将汉字和英文字母比较是很不合理的。按计算,汉字熵比英文字母熵大一倍还多,但是谁都知道,
在任何两份内容相同的中英文,英文的字母数都比中文的汉字数多两倍以上。与字母相当的应是汉字笔画,我计算汉字笔画的平均熵只有3.43比特,远比英文字母的4.03比特低。实际上,目前的文字信息编码,都没有应用熵原理。按信息论,为了达到理想情况,必须用不等长的编码:出现频率愈小的,用愈长的碼,而高频字则用短码,才能使实际的平均熵降低,接近这理论熵值。现在不管英文还是中文,都用等长码。一个字母8比特(一个字节),是平均熵的两倍。汉字如果用2字节内码,一个汉字16比特,不到平均熵的两倍,再加上中文总比英文短,效率决不会低。