PC—1500汉字系统H试论中文计算机

                                                                                                                 

                                              

 

  1.PC—1500汉字系统H的特点

 

  19848月,我首次得到袖珍计算机PC—150020天后即完成第一个无字库的汉字系统。到12月经修改定名为汉字系统H,并开始推广到全国许多省市。因为我原未接触过微机,也没有中文信息处理的技术资料,现在看来该系统尚有许多明显的缺点,如字元的选取和在键盘上的分布不尽合理,没有用机器语言,故打印速度慢,一分钟仅10—15个汉字。但是却意外的得到用户的好评。现在看来主要有两大特点:

  1),无字库,内存开销少,而能处理的汉字数几乎无限。PC—1500汉字系统H 选用239个字元(字根),每个键分配4个;每个字元要用两套数据,一套是打印用的,另一套则供屏幕显示,共耗内存4.5K。再加上3.4K Basic程序,进行输出方式控制(显示,打印,打印方向,汉字大小)、编辑,及由这些字元组成几乎所有的汉字,包括繁体字,冷僻字,怪字,自造字。

  2),易学习,记忆量少。因为每个汉字是由字元(设有省略的或两义的)拼形而成,而全部字元都标在键盘上,且用不同的颜色指明每个字元是属于上下,左右,还是嵌套结构。所以,几乎与大键盘一样,不要记什么规则,而熟识二百多个字元的分布,显然比由成千上万个汉字组成的大键盘容易多了。按住每一个字元键时,将有四个不同的字元周而复始地显示在光标位置上,需要那一个,只要停在哪个上,所以这小键盘却实现了中键盘的功能。字元多即码元多,个别字的码长较长,但是常用汉字的平均码长3.5左右,不必进行内码转换,即键码直接作传输码、存储码用。实际上字元数再可压缩1/2—1/3,两套数据可省去一套,程序模块改用机器码写,则内存开销可压缩4—5K,打印速度可接近打印ASCII字符的速度,还容易改用针打。除了一个不能克服的缺点--由于显示屏幕大小仅156*7点,不能显示整个汉字,只能显示其字元组成外,这巴掌大的袖珍机,已改造为中文计算机了。

 

   2.中文计算计应是什么样的?

 

 微机的价格不断下跌,内存日益增大,现在都很容易配上汉字系统,可以处理中文信息了。但似乎只把那些配有汉字操作系统,使用中文高级语言的微机叫做中文计算机。实际上,它们都只不过用西文计算机来处理中文,而且要额外占用50—100K以上的内存或另加一个硬件汉卡,其价值已相当于一台低一级的微机。当然,对于计算机本身,都是用二进制(16进制)代码处理的,在硬件上本不分中文、西文的。只因该项技术从西方传入,只要1K左右的内存储存30—60个字母字形即可处理所有西文。所以我国的计算机都是以西文软件为基础的,处理中文的能力是以后扩展的,都不能称作中文计算机。确实,现在所谓的中文计算机都首先可以处理西文,没有也不会有人去设计制造专门处理中文而不能处理西文的计算机。众所周知,所有中文打字机都可打印西文,但却有充分权利享用中文打字机这个专有名词,因为其构造和性能完全不同于西文打字机。可能由于中文打字机笨重,打字员的训练较难,可能由于出现西文计算机后很长一段时间内还难以处理中文信息,才使人错误的认为方块字将影响我国科技文化的飞跃,这曾成为改革汉字为拼音新文字的理由之一。但是,现在已有人,甚至连外国人(英国李约瑟)都认为,汉字在许多方面都优于拼音文字。另外,近十年来400多种汉字系统的实践表明,除了汉字数量繁多需要很大的存储体来建立汉字库外,因为每个汉字的信息量大,在键入和传输速度,存储和处理效率上甚至优于西文。现在从PC—1500汉字系统H的实践看,可以不要汉字库,只要字元库,而该字元库的内存开销可压缩到西文计算机的字母库(即软件中的字母字形数据表)的3—5倍,不但有必要,也已有可能来探讨和设计制造以中文为基础的真正的中文计算机了。

 

  3.中、西文的比较

 

  为此,我们且从计算机技术的角度来比较一下中、西文。下表中,我们把由文字的元素(字母或字元)构成句子的过程分成01234级来考察。所谓无显界是指:由2个以上的该级个体组成下一级个体时,不能明显地一一分开。例如:划分一个西文词的音节,把一个汉字拆分为字元,都必须有一定程度的该种语言文字知识,有时拆分结果还会因人而异,颇有争论,所以我们称汉字字元和西文音节为无显界,即不易为计算机处理规定一个明确的区分标志。

0 (元

1

2

3

西 (拼音)

音素:与形素(字母)一一对应,数目少,包括小写30—60左右, 有显界

音节:无显界

词:有显界

 

中文 (拼形)

形素(字元):与音素非一一对应, 数目多、约100—600个,无显界

字:有显界

词:无显界

由上表可见,西文的元素(字母)少,音素与形素一一对应,所以已会该种语言的人开始学习读写较容易,计算机处理技术亦较简单,用小建盘可盲打。但由于元素少,每个字母所含信息量亦少,所以输入一定内容的击键次数多,占内存大,处理、传输均较费时,就是手写、目阅的速度也受限制(字母的线性排列是限制原因之一)。中文则适相反,字元数多,非线性排列拼字,每个字元的信息量大,开始学习时要多花工夫,学会后手写、目阅均较快,受益终生;计算机软硬件稍复杂,但键入、传输、处理的速度快,占内存小,(这里不是指字库,也不是字库支持下的编码方法,因为西文也可采用此法建立词库来提高效率的)。

  中文信息化比西文困难的原因也在上表中揭示出来了。其中词的无显界仅影响机器理解中文,暂不讨论。剩下的只有二条:字元个数多,字元间无显界及非线性结构。

 

  四、汉字的拆分和结构

 

1)、汉字的拆分与字元集:汉字的拆分尚无公认的标准,字元集有大至500—600个元素的,也有在200个以下的。PC—1500汉字系统H选用239个字元,这是由以下两点决定的:首先,为了从充分利用一个字节的信息量,字元数在加上必须的结构符、标志码,应接近256,其次,该机共65个键,除去ENTEROR及最底限度所必须的2个功能键外,还有61个键,每键分配3个字元,字元数仅180个左右,不能充分利用每一字节的信息量,今每键管4个字元,共244个(包括结构符),冗余的12个状态中,取一个充作区别中英文的标志符。实际上字元数和结构符还可以压缩。曾在苹果机上实验,只选用181个字元,加上64AscII字符及结构符等,凑足256。这样就不需要区别中英文代码的标志码,使用户存储区的效率进一步提高了,唯一不能使用小写字母。字元数还可以进一步压缩,这虽会使个别汉字的码长增加,但对平均码长影响不大。最好的方案可能是,采用160左右的字元,4—5个结构符、52个大、小写字母及40个左右其他符号,凑足256。这时,汉字字元数仅为英文字母数的3倍。字元数据不采用点阵式,而采用笔划式(即只存储每笔的起止及转折点数据),既便于放大缩小,又可节省内存,字元库的内存开销就与现时西文计算机字母库的开销差不多了,就可设计制造出以汉字为基础,即中文为主,西文为辅的中文计算机了。

 

 

                          张时钊      2001年10月

                             通信地址:陕西省气象局   邮编:710015

                             电子信箱:mzsgls@263.net

                                       mzsgls@pub.xaonline.com