| 姚子渊:中文 2.0 时机成熟? |
| 送交者: 佚名 2007年05月26日16:52:58 于 [教育学术] 发送悄悄话 |
|
姚子渊:中文 2.0 时机成熟? 复旦大学计算机系 03 级退学生 姚子渊
不屈的人每过一段时间也许就会倔强地问自己:能不能不选字?信息论告诉我们,拼音串转换成汉字串是一个追加信息的过程,追加的信息(每个音节究竟对应哪个汉字)有时不是根据外部知识就能推理出来的;换句话说,归根结底一个音节对应什么汉字,是由作者自己说了算的,任何旁人(哪怕是一个通晓人类全部知识的人工智能计算机)的猜测都是枉然。那么,能不能不转换成汉字,直接用拼音进行交流?这是所谓汉语拉丁化/罗马化/拼音化/假名化,从第一次被提出已经有一百多年历史了。它没有被社会接受的原因是人们无法自愿接受这样一种大大改变习惯的剧变(阅读拼音书写的文章)。不过,世界是不断变化的,往往一个新技术的出现,可以使得一个长久不得解决的问题(long-standing problem)突然就迎刃而解。这个新技术,就是语音朗读(TTS)——电脑自动把一篇文章朗读出来。 中文 TTS 普及到中国百姓家庭是二十世纪末二十一世纪初,以 IBM ViaVoice 和预装在 Windows XP 中的 Microsoft Chinese TTS 5.0 为代表。TTS 不仅可以朗读中文,实际上也可以朗读拼音写成的文章,因为拼音本身就记载了朗读中文所需的全部的信息。于是我们就有一个想法: 信息为什么要用眼睛“看”呢?“听”不就得了?! 这样,我们就有了一个直接用拼音来撰写和阅读中文信息的理由。拼音的输入是非常直接了当 (straightforward) 的,习惯带着声调打拼音的人可以直接把声调夹在拼音里输入,不习惯打声调的人可以先打完一整句拼音,让电脑(拼音输入法)猜一下每个音节的声调,用户可以用视觉或听觉(每打一句拼音让电脑自动朗读一下)来发现并纠正电脑有没有猜错声调的地方。拼音的“阅读”也是十分自然的,我们可以为浏览器、电子邮件程序、聊天程序和字处理程序分别做一个插件,使得用户只要把鼠标移动到页面的任何一点,插件都能在这点的旁边显示一个浮动工具条,含有“朗读此句”、“朗读此段”、“朗读此篇”三个按钮,用户只要一次单击就能轻松理解一段拼音文本。 虽说我们有 TTS 这一有力武器帮我们理解拼音写成的文章,但有时我们想用眼睛快速浏览一篇文章怎么办?我认为一篇拼音写成的文章不妨有三种“视觉阅读模式”,可由上述的插件随意切换: (1) 纯拼音显示。即用汉语拼音本身来显示文章,这对没有学过汉字的人最适用。由于拼音输入时不要求作者用空格进行分词,拼音显示出来也就采用字与字之间一律都是一个空格的格式,或者完全没有空格的格式。另外我个人觉得声调似乎标在音节的第一个字母上更佳,因为这样更好的标记了每个音节的开始。Unicode 有所谓“combining accent code points”可以让声调显示在任何一个字母上,而不仅仅只能在 a, e, i, o, u, v 上。 (2) 纯假名显示。即对于每种拼音音节,用一个特定的汉字(假名)去代表它,文章用这样的假名显示出来。对于已经学过汉字的人来说,认读假名比认读拼音音节要直观的多。假名的设计也有学问,它应该使假名语言显示出来的文章比起原来用汉语写成的版本拥有最多的“重叠”——所谓重叠就是原文某个地方有个单词(单字词或多字词)而假名文的同一地方也用同样的汉字表达这个单词。这样是为了让假名文“看上去最像原来用汉语写的版本”。 (3) 假名与汉语单词混合显示。即在纯假名显示的基础上,把计算机几乎可以肯定的某些地方还原成中文单词,还原部分用突出颜色显示,以跟假名部分区别开来。还原中文单词是为了进一步为已经学过汉字的用户在用眼睛快速浏览一篇文章时增加“视觉线索 (visual cues)”,就好像我们看日语写成的文章中夹杂的中文可以让我们大略了解这篇文章所述的主题一样。 以上 (1) (2) 两种显示模式各自都算是一种书面语言,而 (3) 不是,因为 (3) 的自动中文还原是有可能犯错误的(把某个假名地方还原成了一个错误的中文单词)。我们把错误责任推卸给负责自动中文还原的插件,而表示“假名语言本身是纯洁的、清白的”。一旦发现还原出了错,用户可以告诉计算机“以后不要还原成这个中文单词,直接保留假名”。 另外,文章作者也可以用中文写一篇文章比较重要的句子,比如摘要、每段中心句等等。而其他次要的地方,则用拼音输入。 最后让我用 Wikipedia 文章“日本汉字改革史”【1】中的两段话结束本文: ‘早在1868年明治天皇颁布“王政复古大号令”的前两年前,前岛密向末代将军德川庆喜上奏《汉字御废止之议》,被日语学者视为首倡废汉字的第一人。1866年,前岛密透过开成所(今并入东京大学)的负责人松本寿太转奏“汉字御废止之议”,他说:“值此国事多端之秋,大家都在讲求救国之策,我的议论好像有点儿迂远,其实不然。救国之本在于教育,教育应不论贵贱士庶、普及到全体国民。普及教育就需要简便易学的文字、文章。如今使用的汉字、汉文,难学难用,因而学习的人很少。有限的学生,又不得不把少年时代的宝贵光阴耗在认记汉字的音形上。少年时代应该是讲求事理学问的好时光,如今却为学习这种无用的古学而磨钝了精神感性,这实在是件可惜的事。” 汉字影响普及程度的争论,不但影响日本本土,往后亦成为中国汉字改革的重要论据。前岛密说,这种想法是来自一位叫威廉的美国传教士,威廉在咸丰年间曾到中国、日本,在中国时看见许多孩子高声朗诵古贤的道理,孩子虽然看不明,却仍死记这些艰深文字。中国本应地大物博,却落得国势萎靡、风俗野蛮、受西洋欺侮,他声称根源正在汉字。来到日本长崎后,威廉氏又指日本人弃用原有假名,转用艰深汉字,“顿觉不可思议”。’ 参考文献
|
|
![]() |
![]() |
| 实用资讯 | |
|
|
| 一周点击热帖 | 更多>> |
| 一周回复热帖 |
| 历史上的今天:回复热帖 |
| 2006: | 且仗长剑越昆仑——从侯饶更替看南开发 | |
| 2006: | 科技造假迷局 ---- 中国科研腐败综述 | |
| 2005: | 佛教心理学与西方心理学 1 | |
| 2005: | 佛教心理学与西方心理学 2 | |
| 2004: | SCI: 滥用和乱批 | |
| 2004: | 比尔·盖茨: 天下无敌 | |
| 2003: | 真实的谎言 | |
| 2003: | 天鹅肉与科学院士 | |
| 2002: | 离清华后的经历与感受 | |
| 2002: | 敢问海外学子为什么 | |




