設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:諍友
萬維讀者網 > 教育學術 > 帖子
一、語言的編碼效率
送交者: 後橋 2007年05月16日16:16:51 於 [教育學術] 發送悄悄話

語言究竟是什麼呢?語言是一套編碼系統。人類的語言和電子設備的通信協議,本質上是一樣的。就是我有信息,我通過這套代碼和協議傳送給你,你接受到我的信息並且理解,我們完成了這個交流的過程。(我覺得沒有學習過電子工程的語言學家們可能不能從這個角度理解語言,所以有時候會冒出些偏頗的結論。)

語言有兩個方面,口頭和書面。人類語言都是從口頭語言發展起來的,成熟的語言會發展到書面形式。如果這麼理解的話,口頭和書面好像是一個事物的兩個方面。但是如果你從編碼的角度理解,你就會有個新的視角——口頭和書面是兩套代碼,一套音頻代碼,一套視頻代碼。這兩套代碼是個多對多的映射關係。口頭和書面,不如我們想象中的聯繫那麼緊密。

從這個結論出發,我們會得到很多推論。隨意的舉幾個例子:
一、我們可以有全新的一套視頻代碼替換現有的,而這個系統工作正常,比如有人提出拋棄漢字,全部拼音化。
二、口頭語言的編碼效率和書面語言的編碼效率是可以分開來看的,比如漢語的口頭語言的效率要比漢字的效率高。
三、書面的字符集要包括上標點符號,因為標點符號是傳達不可或缺的信息的。比如英語離開空格是無法工作的。不要小看這個空格,這裡面有講頭,以後再講。
等等等等

有人說漢字的效率高,因為同樣的一篇文章,肯定是中文的最短。我並不是太確定。這裡面有個字體大小的問題。你必須有個標準。比如,把字體調到能讓人能看清的最小限度,在同樣面積的裡面,究竟哪種語言能傳送更多的信息。我沒有明確的結論。

從書寫的角度,漢字的速度顯然慢。所以漢字才被簡化以提高書寫速度。

顯然漢字可以進一步簡化而不引起歧義。為了提高效率,越簡化越好嗎?不是的。編碼學還有另一個指標,叫做容錯。一條信息的冗餘越小,它的容錯率就越差。比如英語也可以簡化,就是縮寫。Quantity可以縮寫成Qty而不引起任何歧義,但是容錯能力巨減。如果你錯寫一個字母或者少寫一個字母,比如寫成Quatity,讀者可以猜測你的意思,但是如果Qty變成Qt,讀者就是錯誤理解為quarter。所以效率的提高是以犧牲容錯能力為代價的。

漢字的書寫速度慢,但是閱讀速度快。因為漢字接近圖形,而人對圖形的反應比對字符的反應要快得多。所以你看軟件菜單裡,有的乾脆用漢字作圖標(讓不認識漢字的人使用漢字圖標!)

因為漢字的傳出(書寫)成本高,傳入(閱讀)成本低,可以得出一個有趣的結論是,漢字在大規模信息傳遞中,效率比其他語言高。也就是說,假設所有人都懂漢語和英語,純粹以效率來衡量,一對一的書面交流應該用英文,出版報紙則應該用中文。

紙面書寫是傳統方式,在計算機時代,鍵盤輸入和硬盤內存儲存是新的衡量標準。結論也是顯而易見,漢字輸入慢,漢字存儲密度高。中文輸入法仍然是個軟點。

講完書面講口頭。

代碼集大的系統有優勢。漢語的優勢在乎聲調。漢語有四聲,再加上輕聲,共有5種聲調, 21個聲母,35個韻母。英語有28個輔音,20個元音。這個差別還是比較大的。

一個比較合理的計量方法是:
漢語,比如“漢”,計作2,因為它包含h和an。但是“睡”要計作3,因為它有sh, u, i。如果是三聲的“水”,要計作4,因為三聲和其他聲調不同,它是個拐音。

英語。Pen,計作2,道理與漢語相同。Language要計作6,因為它有l, an, g, u, i, ge。Select要計作6,這裡的每個字母都發音。漢語的拐聲被多計一個數,相應的,英語的長音要計作2,比如cheese要計作4,因為它用時略長。

注意上面不是我們常說的音節,我算得比較細,權且稱為“音數”吧。

常見的日常詞彙里,大概四五個音數就搞定了。但是英語稍微複雜一點音數就開始增長,即使像常見的finish, prepare, tooth paste。flower是個更過分的例子,這麼常用的詞竟然有5個音。

而中文詞彙基本上都用兩個漢字,到四個漢字就到了成語的領域。(成語需要單獨討論。古語的信息載量更大,四個字頂一句話。)中文裡四個以上的詞彙極少。即使像“綣繾”這麼罕見的詞都是兩個字。

再據個例子,“造”是基本的通用的字,“蓋”精確一些涵蓋面小一點,“建設”算是比較高級的詞。他們的音數分別是2,2,5。對應成英文:make, build, construct。音數分別是3,4,7。稍微複雜一點單詞就變長了。

0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制