| 姚子淵:中文 2.0 時機成熟? |
| 送交者: 佚名 2007年05月26日16:52:58 於 [教育學術] 發送悄悄話 |
|
姚子淵:中文 2.0 時機成熟? 復旦大學計算機系 03 級退學生 姚子淵
不屈的人每過一段時間也許就會倔強地問自己:能不能不選字?信息論告訴我們,拼音串轉換成漢字串是一個追加信息的過程,追加的信息(每個音節究竟對應哪個漢字)有時不是根據外部知識就能推理出來的;換句話說,歸根結底一個音節對應什麼漢字,是由作者自己說了算的,任何旁人(哪怕是一個通曉人類全部知識的人工智能計算機)的猜測都是枉然。那麼,能不能不轉換成漢字,直接用拼音進行交流?這是所謂漢語拉丁化/羅馬化/拼音化/假名化,從第一次被提出已經有一百多年歷史了。它沒有被社會接受的原因是人們無法自願接受這樣一種大大改變習慣的劇變(閱讀拼音書寫的文章)。不過,世界是不斷變化的,往往一個新技術的出現,可以使得一個長久不得解決的問題(long-standing problem)突然就迎刃而解。這個新技術,就是語音朗讀(TTS)——電腦自動把一篇文章朗讀出來。 中文 TTS 普及到中國百姓家庭是二十世紀末二十一世紀初,以 IBM ViaVoice 和預裝在 Windows XP 中的 Microsoft Chinese TTS 5.0 為代表。TTS 不僅可以朗讀中文,實際上也可以朗讀拼音寫成的文章,因為拼音本身就記載了朗讀中文所需的全部的信息。於是我們就有一個想法: 信息為什麼要用眼睛“看”呢?“聽”不就得了?! 這樣,我們就有了一個直接用拼音來撰寫和閱讀中文信息的理由。拼音的輸入是非常直接了當 (straightforward) 的,習慣帶着聲調打拼音的人可以直接把聲調夾在拼音里輸入,不習慣打聲調的人可以先打完一整句拼音,讓電腦(拼音輸入法)猜一下每個音節的聲調,用戶可以用視覺或聽覺(每打一句拼音讓電腦自動朗讀一下)來發現並糾正電腦有沒有猜錯聲調的地方。拼音的“閱讀”也是十分自然的,我們可以為瀏覽器、電子郵件程序、聊天程序和字處理程序分別做一個插件,使得用戶只要把鼠標移動到頁面的任何一點,插件都能在這點的旁邊顯示一個浮動工具條,含有“朗讀此句”、“朗讀此段”、“朗讀此篇”三個按鈕,用戶只要一次單擊就能輕鬆理解一段拼音文本。 雖說我們有 TTS 這一有力武器幫我們理解拼音寫成的文章,但有時我們想用眼睛快速瀏覽一篇文章怎麼辦?我認為一篇拼音寫成的文章不妨有三種“視覺閱讀模式”,可由上述的插件隨意切換: (1) 純拼音顯示。即用漢語拼音本身來顯示文章,這對沒有學過漢字的人最適用。由於拼音輸入時不要求作者用空格進行分詞,拼音顯示出來也就採用字與字之間一律都是一個空格的格式,或者完全沒有空格的格式。另外我個人覺得聲調似乎標在音節的第一個字母上更佳,因為這樣更好的標記了每個音節的開始。Unicode 有所謂“combining accent code points”可以讓聲調顯示在任何一個字母上,而不僅僅只能在 a, e, i, o, u, v 上。 (2) 純假名顯示。即對於每種拼音音節,用一個特定的漢字(假名)去代表它,文章用這樣的假名顯示出來。對於已經學過漢字的人來說,認讀假名比認讀拼音音節要直觀的多。假名的設計也有學問,它應該使假名語言顯示出來的文章比起原來用漢語寫成的版本擁有最多的“重疊”——所謂重疊就是原文某個地方有個單詞(單字詞或多字詞)而假名文的同一地方也用同樣的漢字表達這個單詞。這樣是為了讓假名文“看上去最像原來用漢語寫的版本”。 (3) 假名與漢語單詞混合顯示。即在純假名顯示的基礎上,把計算機幾乎可以肯定的某些地方還原成中文單詞,還原部分用突出顏色顯示,以跟假名部分區別開來。還原中文單詞是為了進一步為已經學過漢字的用戶在用眼睛快速瀏覽一篇文章時增加“視覺線索 (visual cues)”,就好像我們看日語寫成的文章中夾雜的中文可以讓我們大略了解這篇文章所述的主題一樣。 以上 (1) (2) 兩種顯示模式各自都算是一種書面語言,而 (3) 不是,因為 (3) 的自動中文還原是有可能犯錯誤的(把某個假名地方還原成了一個錯誤的中文單詞)。我們把錯誤責任推卸給負責自動中文還原的插件,而表示“假名語言本身是純潔的、清白的”。一旦發現還原出了錯,用戶可以告訴計算機“以後不要還原成這個中文單詞,直接保留假名”。 另外,文章作者也可以用中文寫一篇文章比較重要的句子,比如摘要、每段中心句等等。而其他次要的地方,則用拼音輸入。 最後讓我用 Wikipedia 文章“日本漢字改革史”【1】中的兩段話結束本文: ‘早在1868年明治天皇頒布“王政復古大號令”的前兩年前,前島密向末代將軍德川慶喜上奏《漢字御廢止之議》,被日語學者視為首倡廢漢字的第一人。1866年,前島密透過開成所(今併入東京大學)的負責人松本壽太轉奏“漢字御廢止之議”,他說:“值此國事多端之秋,大家都在講求救國之策,我的議論好像有點兒迂遠,其實不然。救國之本在於教育,教育應不論貴賤士庶、普及到全體國民。普及教育就需要簡便易學的文字、文章。如今使用的漢字、漢文,難學難用,因而學習的人很少。有限的學生,又不得不把少年時代的寶貴光陰耗在認記漢字的音形上。少年時代應該是講求事理學問的好時光,如今卻為學習這種無用的古學而磨鈍了精神感性,這實在是件可惜的事。” 漢字影響普及程度的爭論,不但影響日本本土,往後亦成為中國漢字改革的重要論據。前島密說,這種想法是來自一位叫威廉的美國傳教士,威廉在咸豐年間曾到中國、日本,在中國時看見許多孩子高聲朗誦古賢的道理,孩子雖然看不明,卻仍死記這些艱深文字。中國本應地大物博,卻落得國勢萎靡、風俗野蠻、受西洋欺侮,他聲稱根源正在漢字。來到日本長崎後,威廉氏又指日本人棄用原有假名,轉用艱深漢字,“頓覺不可思議”。’ 參考文獻
|
|
![]() |
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2006: | 且仗長劍越崑崙——從侯饒更替看南開發 | |
| 2006: | 科技造假迷局 ---- 中國科研腐敗綜述 | |
| 2005: | 佛教心理學與西方心理學 1 | |
| 2005: | 佛教心理學與西方心理學 2 | |
| 2004: | SCI: 濫用和亂批 | |
| 2004: | 比爾·蓋茨: 天下無敵 | |
| 2003: | 真實的謊言 | |
| 2003: | 天鵝肉與科學院士 | |
| 2002: | 離清華後的經歷與感受 | |
| 2002: | 敢問海外學子為什麼 | |




