汉字世纪—用笔画组字实现无字库电脑
1、研制真正的汉字电脑:汉字是世界上唯一还在使用的最古老文字;是维系中华民族的纽带;是最古博精深的中华文化之载体;并形成了大半个亚洲的汉字文化圈。为什么19世纪末到20世纪反被认为是落后的文字呢?持这种观点的还都是中国先进的知识分子。鲁迅甚至说:“汉字不灭,中国必亡”,毛泽东也主张走世界共同的拼音文字道路。我认为其原因是:中国的活字印刷传到西欧后,反使拼音文字如虎添翼,因为他们只要用50-60个字母铅字,更加方便,导致了机械打字机的发明,文人的笔耕也机械化了。后来虽然也出现了中文打字机,但要带几千上万的汉字字模,十分笨重,不能用来写作、写信、写便条。现在已由机械化,经过电气化,进入了数字化时代,方块字已可由笔画合成,象英文字由字母合成一样。我在1984年研制成功袖珍机无字库汉字系统,近5年的试验研究,只要用50个笔画,已组出2万汉字,实际也可以组出10万以上的汉字。眼下的电脑,虽然都能处理汉字,但是都离不开庞大的汉字库,实际是西文电脑,最后离不开英文。除不利于普及外,老外还有可能在英文软硬件中埋下窃听程序,不安全。我们应研制以汉字为第一语言的自己的真正的汉字电脑。
2、文字是独立于语言的更重要的思维工具:汉字落后论和英文霸占世界的现状,产生了文字向拼音化发展的理论。它认为:文字起源于图画,经过象形——表意——表音,最后都要发展到拼音文字。由于语言在先,文字在后,文字能记录语言,所以还有一个理论说:文字仅仅是为了记录语言的,不能按语序忠实记录语言的文字,就是原始文字。斯大林说语言是思维的外衣,事实上,文字才是更重要的思维工具:如图表、公式等,不能用语言代替;没有文字,超时空的人类思维也难以形成。从聋哑人社会(据报道还有不会说话的人种)没有语言而可以使用文字来看,文字是独立的。另外,如果是为了记录语言而发明文字,首先出现的应是表音文字,不可能是图画和象形文字。因为在能画图之前,人类只能作出简单的刻划符号来代表少量的音节,不可能图示万千复杂的事物。图符文字之前还有结绳记事,它不可能是什么“大事大其结,小事小其结”。近来在南美发现的结绳,主绳上系许多打结的分支。如果每分支有8个位置可打结,有结为1,无结为0,那不是电脑的一个字节?俨然构成一个二进制系统。这种结绳不可能像形、指物,却能记语音,因而能记述复杂事物。最后,英文的扩张是由过去的军事、经济推动的,它不是最好的表音文字,还要用国际音标注音,怎么能说拼音文字是发展方向呢?
3、文字要维护(小改),但不能徹底改革:感中文打字机的不便,引发汉字落后论,叹英文的扩张,误以为汉字难学而不能走向世界。上世纪三十年代就进行过拼音扫盲的试验,说成人学一个月就可以写信了。拼音字母虽然不多,但拼音的技能不容易掌握。因为汉语只有400来个音节,不如直接学会400个简单汉字,用白字来代写,不是也可在一个月内学会写信吗?拼音文字推广了近百年,最后还是失败了。大家把原因归罪于汉字的同音字太多。于是又在设计新方案,加上各种标调方法,还增加部首、义项或叫什么基因的,用来分化、鉴别同音字。我不知道新仓颉们造的新字有多少种,可能与输入法的万码奔腾局面差不多吧。人人都指望被国家选中,加以推广。殊不知,语言文字是约定俗成的,不是少数几个人创造的,也不是权力、武力能强制推广和消灭的。秦王统一文字,解放后推广第一批简化字,行政权力是起了重大作用,但基本上是规范已有文字,而不是推广新文字。一些少数民族是推广了新设计的文字,但那里人口不多或原本没有文字。人口愈多,惯性愈大;使用愈久,载负文化成果愈多,冲力就愈大;文字就更不能作根本性的改革。周有光先生发现,表意文字符号,只有转到另一个民族时才能改变为表音文字。看来一种文字的消失,常常伴随使用它的民族的消灭。武则天造的字,第二批简化字都不能被接受,用种种千奇百怪的新字完全代替汉字能成功吗?
4、信息时代汉字的出路是笔画组字:当前电脑汉字还存在种种问题;乱码;缺字;不能科学地排序、难于搜索;万码奔腾,却常不能输入一个冷僻字……人们还没有认识到问题的根源,难以克服,这成了文改派要求拉丁化的主要理由。实际上根源很简单:是当初错误地选择了汉字本身作为编码对象:给每个汉字规定一个内码(信息交换码)。任何数字通信和文字数字化,都要选一个元素有限的讯号源集合,作为编码对象。现阶段规定信息交换码时,没有应用信息论原理。说汉字熵比英文(字母)熵大,不是好事,实际上如果计算英文字(词)的熵,它比汉字熵更大,所以不能作为编码对象。汉字集太大,元素无定数,不稳定,怎能作为编码的对象?有人提出对策,限定汉字数。但这势必使汉字僵化,不能发展。当前光怪陆离的网络词语,就是由僵化的“字库加编码”方式逼出来的,否则他们应该是纯正的新造汉字或新词语。上述错误,有其历史原因及技术原因。我们是参照了中文打字机,看到汉字和字母同样有铅字字模,就被看作是同类事物。实际上,在信息化中它们根本不是同类的。字母集,元素少(英文52个),已稳定,可作为编码对象。与字母同类的是汉字笔画,但当时的软硬件技术又不能做到笔画组字。现在可以解决了,应该着手纠正这一错误。否则总有一天要触发“定量炸弹”:汉字编码集一有变动,过去数字化劳动的成果,会像世贸大厦一样被炸毁了。
5、未来万国文字兼容之方向:不管是纸上文字、结绳文字,还是电脑文字,都是用改变物质载体状态的办法来记录信息。因此,文字形态必受物质载体和所使用工具(笔)的影响。两河流域的泥板上只能是丁头字;黄河流域的甲骨及竹简上,刻的字较长,后来压缩成方形,横笔就比竖笔多;轻贱的纸和汉字的普及,促成了隶变;等等。电脑文字阶段,介质(内存、磁盘、光盘)变化更大,最后必会影响文字的形态。现在是把整个字复写到显示屏上,各给一个内码,影响还未显现。但这一方式,在汉字上已出了些问题。在互联网世界,要容许同时使用万国文字。文字种数未定,字母也不尽相同,包容一切拼音字母的符号集必很大且非定数,再加上所有汉字型字苻,就更多了。现在采用的办法是,扩大编码空间,一个字符用4个字节,可容纳40亿(256的4次方)字符。各国正在像抢注域名一样,抢占属于本国文字的编码空间,一开始就已乱纷纷了。从中国汉字的经验来看,这条道路是走不通的。问题不在于编码空间不够,而是字符根本没法收全。在手写时代,用纸和笔可以随意写出任何字形。机械印刷时代,就只能使用制造了铅字的文字,相信有不少文字还没有来得及进入铅字库。电脑技术应该能取消这个字库的限制,又可以写出任何字形。汉字可由少数笔画组出,所有字母文字也应该可由更少的元笔画组出。研究现有的部分文字,得出规律,使它适应于处理古往今来的所有文字,一定程度上也就能适应不远将来之发展,这才是正确的方向。
6、21世纪是汉字的世纪:古代四大文明:从我国黄河流域,向西经过恒河,两河到尼罗河。以后是希腊罗马;18世纪是法国;19世纪以英国为中心;20世纪,向西120度到美国。这两个世纪使英文成为世界性文字。21世纪,再向西120度就落到北京了。21世纪应该是中国的世纪,汉字的世纪!汉字一点也不落后,信息时代反而突现它的种种优点和优势:字形易辨,信息量大,阅读快;词语短,组词方便,简称歧义少;能开发右脑,提高智商,思维快;超方言,通古今,现代使用则3000-5000个汉字就够了。据说在语音和字形识别上,在语言理解上,汉字汉语都比别的强。说汉字难学,却用学汉字的方法治疗英语的失读症。难学的原因实际上只在于查字典难,自学难。我们都有体会,幼时由于查不出生字,致使现在常常读错。一旦解决了笔画组字难题,每个汉字都可由笔画或少量字根组出。按组字笔顺唯一地排序,就不会有查不到或输不进电脑的汉字。王竹溪的《新部首大字典》首次尝试过这样的方法。象当初制定国标码一样,定出一套汉字笔画标准,国人也必会象当年编研输入法一样,创造出由笔画自动组成汉字的好软件来。这时就容易研制出真正的汉字电脑,使21世纪成为中国的世纪,汉字的世纪!
2005.8.15
陕西省气象局
张时钊 邮编:710015
网 址:www.chancezoo.net (或org)
电子信箱: mzsgls@pub.xaonline.com ; chancezoo@126.com