http://bbs.creaders.net/education/bbsviewer.php?trd_id=352831其他所謂的一些問題,不見得正確。有人說,英文熵(英文字母的平均信息熵)低,只有4.03比特,而漢字熵高達9.65比特,所以中文的信息處理效率特別低。而漢字優越論者卻認為這是漢字的優點,熵就是信息量,熵高即含信息多。漢字形體複雜,分辨率高,確是優點,不過熵大卻不是好事。平均熵的含義是,用最好的編碼方法,平均一個字至少要多少比特(二進制位),當然是愈小愈好。但這裡將漢字和英文字母比較是很不合理的。按計算,漢字熵比英文字母熵大一倍還多,但是誰都知道,
在任何兩份內容相同的中英文,英文的字母數都比中文的漢字數多兩倍以上。與字母相當的應是漢字筆畫,我計算漢字筆畫的平均熵只有3.43比特,遠比英文字母的4.03比特低。實際上,目前的文字信息編碼,都沒有應用熵原理。按信息論,為了達到理想情況,必須用不等長的編碼:出現頻率愈小的,用愈長的碼,而高頻字則用短碼,才能使實際的平均熵降低,接近這理論熵值。現在不管英文還是中文,都用等長碼。一個字母8比特(一個字節),是平均熵的兩倍。漢字如果用2字節內碼,一個漢字16比特,不到平均熵的兩倍,再加上中文總比英文短,效率決不會低。