汉字部件的统计规律

 

上世纪80年代,设计汉字形码输入法时,开始了汉字的拆分研究。把每个汉字拆分为部件(当时一般叫字根),部件再按形状近似归并成2526类,每类用一个拉丁字母作代码,一般都按前三末一取4个码。以后研究笔画组字,也要进行汉字拆分。因为汉字笔画太多,要按拆分的结果,先组成部件,再由部件组成汉字。与编码拆分不同,这时部件不归并,变形部件也要相互独立。

不同的字形输入法作者,对汉字的拆分完全不同。拆分出来的部件数目不一,拆分的方法、拆分所依据的原则不一样,有些甚至不遵循“交重不拆”“以大为先”,所用的名称、定义也各异。为了统一,语委先后出了两个部件规范。但是,两个规范差异很大,很多编码者喊,规范本身不规范,不愿受其约束。汉字拆分随意性很大。

要克服这种随意性,应该先研究其规律性,然后才能作出正确的定义、原则、方法等。我比较分析了几份不同的拆分数据,竟发现有一致的统计规律性。

 

一、              资料

 

这次统计使用4份不同的汉字拆分数据,它们是:

1、              第一份是我现在进行笔画组字试验用的935个部件,用它们已组出23216个汉字。因为是组字用的,所有异体的偏傍如“土”和“地13”(即地字的第1笔开始的3个笔画组成的笔画组)、“走”和“起17”等,都各自独立为不同的部件。这份资料最详细,都在数据库中,可以任意统计各种需要的数字。但因尚处在试验中,未定案,已发现有一个部件重复了。另外,组出的个别汉字,可能组错了,也就是说拆分错了的。

2、              第二份资料是语委199712月分布的“信息处理用GB13000.1字符集汉字部件规范”,560个部件,是从20902GBK汉字中拆分出来的。原资料是按每个部件的构词数排序的,但没有列出具体的构词数数据。在网上查到一篇国联科技实业有限公司 周锡卫、陈民写的文章“对《汉字部件规范》的若干数据统计”。虽然该文大部分数据是关于汉字的,但载明:部件最多的汉字由13个部件构成,单部件汉字有359个,其它有234561011个部件以上的汉字数分别为344468855458411016388个。这7个数字之和比列出的合计值209021000,估计1638638之误。

3、              第三份资料是语委2003年发布的“基础教学用现代汉语常用字部件规范(征求意见稿)”,共540个部件,它们是从3500个常用字中拆分出来的。这份资料比较详细,列出了每个部件的笔画数、构词数及出现次数。构词数是指该部件参与了几个汉字的组成,出现次数是指在所有3500个常用字中,它共出现了几次,我把它改称为调用数。因为有些部件在一个汉字中可出现2次以上(如器字中含4个“口”),调用数大于或等于构词数。因为出现2次以上是极个别的,所以两者相差很小。

4、              第四份是潘德孚在“汉字易拆易学证”中公布的,按他的拆分原则,对一级汉字的拆分数据,部件数344个,有123456789个部件的汉字数,分别为111629124910684891603982个。

不同的部件系统,部件差异很大。语委的两份部件,虽然是由不同的汉字集拆分而得,但第二份依据的常用字是第一份GBK汉字集的子集,而且是按同样的原则拆分的,然而前者的部件集却不是后者的子集。它们只有373个是对应的,只占第三份部件总数54069%,倒是在第一份资料的部件表中,可找到476个对应当部件,占88%。这些不同的部件系统,都有下面所述的规律。

 

二、              调用数分布规律

 

每个部件参与构成的汉字个数,被叫做构词数(实际上叫构字数更克当)。所有部件构词数之和,与汉字集中所含所有部件的总数,即部件调用数(在语委的规范中叫出现次数)总和,相差很小:在第一份资料中,是5722158490,在第三份资料中是90049239。因为其它两份资料没有前一种数据,后面计算每个汉字平均部件数时,应该用后一个数,所以这里也用调用数表示部件的构字能力,而不用构词(字)数。

为比较取自不同汉字集大小的各部件的构字能力,我们用一个部件的调用数总和除以汉字集总字数,并称为调用率(构字力)。与汉字的使用频率的分布不一样,它服从指数分布,参见附图。

 

  这两份资料的前15个构字能力最强部件的数据列表于下:

N

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

第一份

部件

调用数

2373

1425

1236

996

820

769

663

638

614

600

592

562

557

489

486

调用率

.102

.061

.053

.043

.035

.033

.029

.028

.026

.026

.026

.024

.024

.021

.021

第三份

部件

调用数

534

231

218

201

200

178

173

159

138

135

109

103

103

92

87

调用率

.153

.066

.062

.057

.057

.057

.049

.045

.039

.039

.031

.029

.029

.026

.025

 

从图和表可见,虽然两份资料所取的汉字集差异很大,字数差67倍(第一分23216,第三份3500);拆分方法也不一样,第一份的“木、土、女”只包含专做偏傍用的异体,而第三份资料则既包含异体也包含正体,构字能力就较大。两份资料调用率最大的都是“口”。第三份的第二位是“日”,但在第一份资料中,由于把左右结构和上下结构的日字分开了,位置向后移了许多,把两者的调用率加起来,仍与第三份的“日“相当。另外,由于第三份只取常用字,含“虫、山、田”的汉字比例降低,所以没进入前15名。但两份资料调用率(构字能力)的分布曲线很一致,几乎重叠了。与理论曲线 y=0.1667x^0.7058也很接近。

 

 

三、              部件笔画数分布及与调用数的关系

 

部件的笔画数分布,与汉字笔画数分布一样,属于二项分布。因为整体数据少,与后者比较起来,离开正态分布较远。从所有的3份资料看,众数位置(部件数最多的)都是4笔。只有第一份和第二份资料有调用数,把同笔画数的调用率加起来,最大值出现在笔画数3处,更偏向笔画少的一面。我们也可料想到,笔画数大的部件,被调用来组字的机会小,它们差不多都是为了几个特别的汉字而设的。所以,调用数与笔画数之间应有负相关关系。计算结果是,在这两份资料中,都有相关系数-0.2,不大。详情见下列数据,并参见附图。

 

       第一份资料                          第三份资料                       第二份资料

笔画数 部件数       调用数   调用率     部件数    调用数    调用率    部件数   

   1       1    .001        7        0       32    .059      362      .103       17     .03

   2      61    .065     7677      .331       57    .106     1896      .542       82    .146

   3     111    .119    15648      .674       88    .163     2874      .821      107    .191

   4     170    .182    11636      .501      113    .209     1907      .545      120    .214

   5     139    .149     7626      .328       87  &n