汉字笔划统计特性
陕西省气象局 张时钊 2003.2
http://www.chancezoo.com
新疆气象局张学文,在网上的一篇文章“汉字笔画与数量的数学公式──汉字的数学美”中,发现汉字的笔划数,服从对数正态分布:
![]()
其中μ=2.4739,σ=0.3827。因为汉字的笔划数x只能取正整数,就不应该是连续的分布。按所给数据,计算出汉字平均笔划数为11(=e2.473),因为汉字笔划最多的可达30以上,所以不可能是对称的。实际上该文附图(分布直方图)横坐标用的是x,右边有拖尾。按公式,纵坐标是概率密度或频数时,横坐标应是ln(x)。我另外取得数据,并以这样的横坐标画图如下:

如图所示,三条曲线中只有静态汉字笔划数对数的分布具有正态分布形态。英文字长对数的分布肯定不符合正态分布,而动态汉字笔划数对数的分布则居中间。所谓静态,每个汉字只计算一次,而动态是要按每个汉字使用的频数加权来计算频率的。静态的汉字笔划平均数为10.98,动态的汉字笔划平均数是7.30。张学文所用的数据,是直接从辞海统计得到,所以是静态的。英文字长分布是我从英语自考课文统计的,是动态的。现把数据录于下表:
|
汉字国标二级字库笔划数统计 |
英语自考课文字长统计 |
||||||||
|
笔划数 |
静态字频 |
百分比 |
动态字频 |
百分比 |
英文字长 |
字数 |
百分比 |
||
|
1 |
5 |
0.0740 |
274831 |
1.2618 |
1 |
1741 |
3.3629 |
||
|
2 |
34 |
0.5030 |
604767 |
2.7766 |
2 |
9022 |
17.4267 |
||
|
3 |
79 |
1.1688 |
1319100 |
6.0562 |
3 |
10215 |
19.7311 |
||
|
4 |
140 |
2.0713 |
1923681 |
8.8319 |
4 |
9157 |
17.6875 |
||
|
5 |
204 |
3.0182 |
2025553 |
9.2997 |
5 |
6079 |
11.7421 |
||
|
6 |
349 |
5.1635 |
3161205 |
14.5136 |
6 |
4444 |
8.5840 |
||
|
7 |
528 |
7.8118 |
2295616 |
10.5396 |
7 |
3844 |
7.4250 |
||
|
8 |
679 |
10.0459 |
3421771 |
15.7099 |
8 |
2804 |
5.4162 |
||
|
9 |
751 |
11.1111 |
2155414 |
9.8959 |
9 |
1843 |
3.5599 |
||
|
10 |
730 |
10.8004 |
1506787 |
6.9179 |
10 |
1315 |
2.5400 |
||
|
11 |
701 |
10.3714 |
1008573 |
4.6305 |
11 |
702 |
1.3560 |
||
|
12 |
637 |
9.4245 |
830160 |
3.8114 |
12 |
314 |
0.6065 |
||
|
13 |
523 |
7.7378 |
521739 |
2.3954 |
13 |
198 |
0.3825 |
||
|
14 |
397 |
5.8736 |
357884 |
1.6431 |
14 |
62 |
0.1198 |
||
|
15 |
310 |
4.5865 |
166970 |
0.7666 |
15 |
18 |
0.0348 |
||
|
16 |
255 |
3.7727 |
116220 |
0.5336 |
16 |
7 |
0.0135 |
||
|
17 |
175 |
2.5891 |
44780 |
0.2056 |
17 |
6 |
0.0116 |
||
|
18 |
75 |
1.1096 |
11045 |
0.0507 |
18 |
0 |
0.0000 |
||
|
19 |
75 |
1.1096 |
10457 |
0.0480 |
19 |
0 |
0.0000 |
||
|
20 |
44 |
0.6510 |
14897 |
0.0684 |
20 |
0 |
0.0000 |
||
|
21 |
24 |
0.3551 |
6890 |
0.0316 |
21 |
0 |
0.0000 |
||
|
22 |
16 |
0.2367 |
1218 |
0.0056 |
22 |
0 |
0.0000 |
||
|
23 |
13 |
0.1923 |
1053 |
0.0048 |
23 |
0 |
0.0000 |
||
|
24 |
7 |
0.1036 |
238 |
0.0011 |
24 |
0 |
0.0000 |
||
|
25 |
6 |
0.0888 |
109 |
0.0005 |
25 |
0 |
0.0000 |
||
|
26 |
1 |
0.0148 |
0 |
0.0000 |
26 |
0 |
0.0000 |
||
|
27 |
0 |
0.0000 |
0 |
0.0000 |
27 |
0 |
0.0000 |
||
|
28 |
0 |
0.0000 |
0 |
0.0000 |
28 |
0 |
0.0000 |
||
|
29 |
0 |
0.0000 |
0 |
0.0000 |
29 |
0 |
0.0000 |
||
|
30 |
1 |
0.0148 |
0 |
0.0000 |
30 |
0 |
0.0000 |
||
|
合计 |
6759 |
100.0000 |
21780958 |
100.0000 |
合计 |
51771 |
100.0000 |
||
上表中汉字部分只统计了二级简体字。动态频数是按“汉字频数统计”(贝贵琴等,1988)一书中的数据加权计算的。从图和表中都可发现,笔划数为7的汉字,频数不正常的低。我特地查考过“汉字信息字典”(李公宜和刘如水编,1988年)994页的表,看到那里的数字与我的基本一样,原来基础数字都是根据我国70年代完成的同一次统计。这样的大工程不可能出大错,尤其不可能只有7划的汉字频数出错,而且都偏少了。所以这个缺口到底意味著什么,很值得研究。
我再用横坐标x绘图如下。可见英文字长的分布更符合二项分布,图中带小圈的是实际曲线,不带的是理论曲线。N都取26,并列出了三条理论曲线的p(如英文的p=0.1416):
n!
y(k) = ━━━━━━━ pk(1-p)(n-k)
k!(n-k)!
虽然图中汉字的理论曲线不很好,但它们应有同样的规律,应倾向于二项分布。无论是二项分布和对数正态分布,我们都还不能说明其中的机制。

至于英文字母的分布,更早就有人研究过。个别字母如E出现频率很高,而J,Q,Z等则要少一百多倍。分布不均是意料得到的,但不会想到竟如此之大。从信息论角度计算它的熵等于-Σ P*log(P)=0.403,如果均匀分布则为 -log(1/27)=4.76(加了一个空格字符,共27个)。从提高信息转播效率来说,应该分布均匀,但实际不可能。有什么深刻道理吗?对于语音不知有没有做过这样的研究?我认为汉字笔划相当于英文字母,不同的笔划数目和字母数相当,它们在文字中的作用也一样。我曾分为25种不同的汉字笔划,统计结果表明,汉字笔划分布的不均匀性更大。英文字母有次序,但按其本性,字母和笔划是没有序的。所以下列图表中,我就按其频数大小排了序。英文字母中不包括空格,上面所举的数据,如果扣掉空格,各个字母地频率也和我得到的一样。
|
国标二级字库中各汉字笔划统计 |
N |
英语自考课文中各字母统计 |
||||||
|
笔 划 |
静态频数 |
百分比 |
动态频数 |
百分比 |
|
字母 |
频数 |
百分比 |
|
横 h |
12388 |
17.3010 |
28959852 |
18.2136 |
1 |
E |
30977 |
12.9823 |
|
竖 s |
12109 |
16.9113 |
26299913 |
16.5407 |
2 |
T |
22032 |
9.2335 |
|
撇 p |
11725 |
16.3750 |
26255175 |
16.5125 |
3 |
A |
19528 |
8.1841 |