“书同文、话同音” 中文数字化技术期待“码同理” 崔国发 金汉杰 邓持韬 陈力生 信息大爆炸是新时代的显著特征,使用母语文字上机学习、查询、交流、处理信息将越来越重要。西文属于一维线性文字,检字、输入技术一脉相承,极其简单,便于实现数字化。汉字属于二维平面文字,现有的识别技术非常繁杂,已成为信息数字化的瓶颈工程。随着我国政治、经济地位的日益提高,国际交往的不断增多,世界上学习、使用、交流中文的要求愈加迫切,汉语将成为通用的语种之一,对中文信息的数字化则提出了新的和更高的要求。 以“东方之子——钱任举”为骨干的一批专家教授,合作攻关,艰苦探索,经过十多年的努力,终于攻克了这一世界性难题,研制成功“中文信息数字化系统”,简称“新钱码”,了解它的人士多给予高度赞誉。 一、汉字识别技术的现状 汉字的检索,字母键盘、数字键盘、鼠标、语音、手写等输入技术统称为汉字识别技术,属于中文信息数字化领域,它的现状与当前数字化的快节奏难以合拍。 先看字词典的检索技术:汉字的检索技术有拼音、部首和四角号码等多种方法,查检生字主要使用部首检字,然而它沿用的仍然是2000多年前《说文解字》的基本规则,只不过将540部压缩到200部左右而已,检索方法费时费力,遇到生僻汉字,还要到《康熙字典》或《辞海》中查检,更伤脑筋。中国人尚且如此,外国人习惯于“ABC”法查检单词,对于汉字的检索,往往无所适从,严重制约了中文的传播与交流。 再看字母键盘输入技术:字母键盘输入的方案有拼音、拼形、音形三大类。拼音类编码取声母与韵母为汉字编码,优点是记忆量小,容易学习,缺点是重码率高,输入效率低。其原因在于汉字的声、韵组合总共仅有417种。现行中文操作系统的GBK大字符集有20903个汉字,新发布的《信息技术和信息交换用汉字编码字符集、基本集的扩充》中,收录了27000多个汉字。各种拼音码都只能用417条编码来输入上述两种字符集中的汉字,平均每条编码约有50~70字的重码,导致输入速度缓慢。拼形类编码大多取150~200个左右的字根,规定一整套拆分规则,将汉字分成四部分,编四码输入一个汉字,优点是重码率低,输入速度快,缺点是难学难记、难拆难分、容易忘。音形类编码取汉字的音与形两种信息为汉字编码,方向正确,但部件的优选、键位的排列、规则的制定还未达到全面优化的程度,输入难度仍然较大。 三看手写输入:手写输入法的优点是学习容易,会写字就能输入汉字,缺点是汉字的笔画太多(简体字平均是10.3画,繁体字平均是13画以上),只能是慢速低效地写入汉字,难以适应现代社会的快节奏。 四看语音输入:将语音变换为数字信号,用于汉字输入的方案叫语音识别输入。但由于汉语的同音字、同音词太多,遇到“这种药能治癌”与“这种药能致癌”、“他期中考试考了90分”与“她期终考试考了90分”等同音语句,语音输入就无法区分。如果汉语的语音不改革,语音输入将来也无法越过这一障碍。 五看数字键盘输入:近十年来,手机广为使用,引发了数字键输入中文的新浪潮,出现了多种数字输入法。拼音输入必然是重码率高,输入速度慢,方言重的人难以使用。笔画输入与手写输入相似,无法摆脱慢速低效的困惑。 更令人困惑的是:不同字、词典检字方法之间,检字与输入技术之间,字母键盘与数字键盘输入技术之间,至今还没有统一的理论、规则和部件(字根),大多停留在功能单一、不能通用的水平上。无论是中国人还是外国人,要学会快速的中文检索和输入技术,都不得不多次学习,反复记忆。与西文相比,中文要花费多倍的努力才能达到相同的效果。 上述情况已经成为中文信息数字化的时代性难题,并越来越制约着世界上中文信息的学习、交流与传播,严重影响着中国成为世界文化大国的进程。现实和历史期待着它能早日创新、突破和统一,让中华文明便捷地走向世界。 二、汉字识别技术的突破 “新钱码”以统一的理论,统一的部件,统一的规则,统一的流程,全面解决了汉字的检索和输入等技术难题,具有全方位的优势(用于检字和字母键盘、数字键盘、鼠标、手写输入的说明书仅有几页纸,在www.qianma.com上查阅)。 一是易学性:汉语有用首尾部件区分汉字的习惯,如“人王全”、“日月明”、“水工江”、“双口吕”等,新钱码正是根据这种思想,取首、尾部件和声母三种最容易识别和获取的信息为汉字编码,使人一看就懂,几乎达到了无师自通的地步。 二是易记性:“新钱码”优选出55个基本部件,分成10大类40小类,用简单明了的10句口诀就能轻松记忆,扩展部件的数量是五笔的二分之一,由于排列规律性强,记忆极为方便。 三是通用性:“新钱码”通用于汉字的检索和字母键盘、数字键盘、鼠标、手写等输入技术。要特别指出的是,用户只要学会其中的一种,无需重新学习和重复记忆,可直接沿用到其它识别技术上。 四是快速性:“新钱码”单字是3键加空格键输入,词组是四键输入,可高速盲打。其快速性体现在:只要在同一起跑线上,任何年龄段的初学者都学得快、记得快、提速快、打得快。更为神奇的是,同一文稿的中英文,使用钱码,在字母键盘、数字键盘输入和字词检索速度上,均比英文快捷。 五是规范性:“新钱码”的部件全部选自国家语委颁布的部件表,部件的拆分全部符合笔顺规范。 六是实践性:2001年安徽省教育厅在19个地市1000多所中小学试用钱码,要求各试用学校反馈学用意见,从老师和学生反馈的意见看,几乎众口一词:“钱码易学、易记、高效、快速、规范”。同年8月19日,安徽教育厅举办了输入大赛,池州市五年级12岁女生胡清以每分钟144字的速度取得第一名,陈贤忠厅长亲自为其颁奖。2001年4月编入安徽高中《信息技术》教材,并发文推广普及这一优秀输入法。该码在安徽省委党校试用,它的鼠标输入方案无须记忆,即学即用,受到教师和学员的广泛欢迎,2002年编入该校《新编微机操作技术》教材。 “新钱码”在原有的水平上,又有了突破性的创新。 七是智能化:“新钱码”具有智能识别功能,现代通用语句输入识别率、在线纠错、智能记忆等技术都堪称优秀。 八是充分利用资源:多数人的右手比左手敏捷,既然键盘左边15个键位用于编码,为什么右边一定要少4个呢?俄文字母有33个,输入俄文就用了33个键位。“新钱码”使用30个键,这是从汉字的特点出发,既充分利用键位资源,又平衡调用右手优势,达到增大编码空间,最大限度地离散重码的目的。如果说逗号、句号和分号是高频符号,“新钱码”的“声形”输入方式中,第一键可直接输入三种符号;在“形声”输入方式中,三种符号要按一级简码输入,也是极为方便的。 “新钱码”使用统一的理论、部件、规则识别汉字,必将减少汉语的学习和交流难度,有助于海内外全面规范中文信息交流,甩掉汉语是世界上最难学习和交流的语种之一的帽子,为中国成为世界文化大国扫清障碍。呼吁有识之士共同关注中文信息的数字化,推荐、交流和比较优秀的识别技术。我们深信,只要大家努力探寻,勇于实践,汉字汉语继“书同文”、“话同音”之后,“码同理”的美好愿景就一定能实现,这是一件利国利民、功垂青史的大事。
注:本文是应《光明日报》关于中文信息化征文而作。
崔国发(铜陵学院党委副书记) 金汉杰(安徽省教育厅原副厅长) 邓持韬(广东省外事办原助理巡视员) 陈力生(安徽省委党校原信息中心主任) |










