汉字部件的统计规律
上世纪80年代,设计汉字形码输入法时,开始了汉字的拆分研究。把每个汉字拆分为部件(当时一般叫字根),部件再按形状近似归并成25-26类,每类用一个拉丁字母作代码,一般都按前三末一取4个码。以后研究笔画组字,也要进行汉字拆分。因为汉字笔画太多,要按拆分的结果,先组成部件,再由部件组成汉字。与编码拆分不同,这时部件不归并,变形部件也要相互独立。
不同的字形输入法作者,对汉字的拆分完全不同。拆分出来的部件数目不一,拆分的方法、拆分所依据的原则不一样,有些甚至不遵循“交重不拆”“以大为先”,所用的名称、定义也各异。为了统一,语委先后出了两个部件规范。但是,两个规范差异很大,很多编码者喊,规范本身不规范,不愿受其约束。汉字拆分随意性很大。
要克服这种随意性,应该先研究其规律性,然后才能作出正确的定义、原则、方法等。我比较分析了几份不同的拆分数据,竟发现有一致的统计规律性。
一、
资料
这次统计使用4份不同的汉字拆分数据,它们是:
1、
第一份是我现在进行笔画组字试验用的935个部件,用它们已组出23216个汉字。因为是组字用的,所有异体的偏傍如“土”和“地13”(即地字的第1笔开始的3个笔画组成的笔画组)、“走”和“起17”等,都各自独立为不同的部件。这份资料最详细,都在数据库中,可以任意统计各种需要的数字。但因尚处在试验中,未定案,已发现有一个部件重复了。另外,组出的个别汉字,可能组错了,也就是说拆分错了的。
2、
第二份资料是语委1997年12月分布的“信息处理用GB13000.1字符集汉字部件规范”,560个部件,是从20902个GBK汉字中拆分出来的。原资料是按每个部件的构词数排序的,但没有列出具体的构词数数据。在网上查到一篇国联科技实业有限公司
周锡卫、陈民写的文章“对《汉字部件规范》的若干数据统计”。虽然该文大部分数据是关于汉字的,但载明:部件最多的汉字由13个部件构成,单部件汉字有359个,其它有2、3、4、5、6-10、11个部件以上的汉字数分别为3444、6885、5458、4110、1638、8个。这7个数字之和比列出的合计值20902大1000,估计1638是638之误。
3、
第三份资料是语委2003年发布的“基础教学用现代汉语常用字部件规范(征求意见稿)”,共540个部件,它们是从3500个常用字中拆分出来的。这份资料比较详细,列出了每个部件的笔画数、构词数及出现次数。构词数是指该部件参与了几个汉字的组成,出现次数是指在所有3500个常用字中,它共出现了几次,我把它改称为调用数。因为有些部件在一个汉字中可出现2次以上(如器字中含4个“口”),调用数大于或等于构词数。因为出现2次以上是极个别的,所以两者相差很小。
4、
第四份是潘德孚在“汉字易拆易学证”中公布的,按他的拆分原则,对一级汉字的拆分数据,部件数344个,有1、2、3、4、5、6、7、8、9个部件的汉字数,分别为111、629、1249、1068、489、160、39、8、2个。
不同的部件系统,部件差异很大。语委的两份部件,虽然是由不同的汉字集拆分而得,但第二份依据的常用字是第一份GBK汉字集的子集,而且是按同样的原则拆分的,然而前者的部件集却不是后者的子集。它们只有373个是对应的,只占第三份部件总数540的69%,倒是在第一份资料的部件表中,可找到476个对应当部件,占88%。这些不同的部件系统,都有下面所述的规律。
二、
调用数分布规律
每个部件参与构成的汉字个数,被叫做构词数(实际上叫构字数更克当)。所有部件构词数之和,与汉字集中所含所有部件的总数,即部件调用数(在语委的规范中叫出现次数)总和,相差很小:在第一份资料中,是57221和58490,在第三份资料中是9004和9239。因为其它两份资料没有前一种数据,后面计算每个汉字平均部件数时,应该用后一个数,所以这里也用调用数表示部件的构字能力,而不用构词(字)数。
为比较取自不同汉字集大小的各部件的构字能力,我们用一个部件的调用数总和除以汉字集总字数,并称为调用率(构字力)。与汉字的使用频率的分布不一样,它服从指数分布,参见附图。

这两份资料的前15个构字能力最强部件的数据列表于下:
|
N |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
|
|
第一份 |
部件 |
口 |
艹 |
氵 |
木 |
亻 |
扌 |
钅 |
日 |
曰 |
虫 |
山 |
田 |
月 |
土 |
宀 |
|
调用数 |
2373 |
1425 |
1236 |
996 |
820 |
769 |
663 |
638 |
614 |
600 |
592 |
562 |
557 |
489 |
486 |
|
|
调用率 |
.102 |
.061 |
.053 |
.043 |
.035 |
.033 |
.029 |
.028 |
.026 |
.026 |
.026 |
.024 |
.024 |
.021 |
.021 |
|
|
第三份 |
部件 |
口 |
日 |
木 |
扌 |
氵 |
一 |
艹 |
亻 |
土 |
人 |
又 |
宀 |
月 |
十 |
女 |
|
调用数 |
534 |
231 |
218 |
201 |
200 |
178 |
173 |
159 |
138 |
135 |
109 |
103 |
103 |
92 |
87 |
|
|
调用率 |
.153 |
.066 |
.062 |
.057 |
.057 |
.057 |
.049 |
.045 |
.039 |
.039 |
.031 |
.029 |
.029 |
.026 |
.025 |
|
从图和表可见,虽然两份资料所取的汉字集差异很大,字数差6-7倍(第一分23216,第三份3500);拆分方法也不一样,第一份的“木、土、女”只包含专做偏傍用的异体,而第三份资料则既包含异体也包含正体,构字能力就较大。两份资料调用率最大的都是“口”。第三份的第二位是“日”,但在第一份资料中,由于把左右结构和上下结构的日字分开了,位置向后移了许多,把两者的调用率加起来,仍与第三份的“日“相当。另外,由于第三份只取常用字,含“虫、山、田”的汉字比例降低,所以没进入前15名。但两份资料调用率(构字能力)的分布曲线很一致,几乎重叠了。与理论曲线 y=0.1667x^0.7058也很接近。
三、
部件笔画数分布及与调用数的关系
部件的笔画数分布,与汉字笔画数分布一样,属于二项分布。因为整体数据少,与后者比较起来,离开正态分布较远。从所有的3份资料看,众数位置(部件数最多的)都是4笔。只有第一份和第二份资料有调用数,把同笔画数的调用率加起来,最大值出现在笔画数3处,更偏向笔画少的一面。我们也可料想到,笔画数大的部件,被调用来组字的机会小,它们差不多都是为了几个特别的汉字而设的。所以,调用数与笔画数之间应有负相关关系。计算结果是,在这两份资料中,都有相关系数-0.2,不大。详情见下列数据,并参见附图。
第一份资料
第三份资料
第二份资料
笔画数
部件数 % 调用数 调用率 部件数 %
调用数 调用率 部件数 %
1 1 .001 7
0
32 .059 362 .103 17 .03
2 61 .065 7677 .331 57 .106
1896
.542
82 .146
3 111 .119 15648 .674 88 .163 2874 .821 107 .191
4 170 .182 11636 .501 113 .209
1907
.545
120 .214
5 139 .149 7626 .328 87 &n