汉字笔划统计特性

陕西省气象局 张时钊 2003.2

http://www.chancezoo.com                    

 

新疆气象局张学文,在网上的一篇文章“汉字笔画与数量的数学公式──汉字的数学美”中,发现汉字的笔划数,服从对数正态分布:


 


其中μ2.4739σ=0.3827。因为汉字的笔划数x只能取正整数,就不应该是连续的分布。按所给数据,计算出汉字平均笔划数为11=e2.473),因为汉字笔划最多的可达30以上,所以不可能是对称的。实际上该文附图(分布直方图)横坐标用的是x,右边有拖尾。按公式,纵坐标是概率密度或频数时,横坐标应是ln(x)。我另外取得数据,并以这样的横坐标画图如下:

 

 

如图所示,三条曲线中只有静态汉字笔划数对数的分布具有正态分布形态。英文字长对数的分布肯定不符合正态分布,而动态汉字笔划数对数的分布则居中间。所谓静态,每个汉字只计算一次,而动态是要按每个汉字使用的频数加权来计算频率的。静态的汉字笔划平均数为10.98,动态的汉字笔划平均数是7.30。张学文所用的数据,是直接从辞海统计得到,所以是静态的。英文字长分布是我从英语自考课文统计的,是动态的。现把数据录于下表:

 

汉字国标二级字库笔划数统计

英语自考课文字长统计

笔划数

静态字频

百分比

动态字频

百分比

英文字长

字数

百分比

  1

5

0.0740

274831

1.2618

 1

1741

3.3629

2

34

0.5030

604767

2.7766

 2

9022

17.4267

3

79

1.1688

1319100

6.0562

 3

10215

19.7311

4

140

2.0713

1923681

8.8319

 4

9157

17.6875

5

204

3.0182

2025553

9.2997

 5

6079

11.7421

6

349

5.1635

3161205

14.5136

 6

4444

8.5840

7

528

7.8118

2295616

10.5396

 7

3844

7.4250

8

679

10.0459

3421771

15.7099

 8

2804

5.4162

9

751

11.1111

2155414

9.8959

 9

1843

3.5599

10

730

10.8004

1506787

6.9179

10

1315

2.5400

11

701

10.3714

1008573

4.6305

11

702

1.3560

12

637

9.4245

830160

3.8114

12

314

0.6065

13

523

7.7378

521739

2.3954

13

198

0.3825

14

397

5.8736

357884

1.6431

14

62

0.1198

15

310

4.5865

166970

0.7666

15

18

0.0348

16

255

3.7727

116220

0.5336

16

7

0.0135

17

175

2.5891

44780

0.2056

17

6

0.0116

18

75

1.1096

11045

0.0507

18

0

0.0000

19

75

1.1096

10457

0.0480

19

0

0.0000

20

44

0.6510

14897

0.0684

20

0

0.0000

21

24

0.3551

6890

0.0316

21

0

0.0000

22

16

0.2367

1218

0.0056

22

0

0.0000

23

13

0.1923

1053

0.0048

23

0

0.0000

24

7

0.1036

238

0.0011

24

0

0.0000

25

6

0.0888

109

0.0005

25

0

0.0000

26

1

0.0148

0

0.0000

26

0

0.0000

27

0

0.0000

0

0.0000

27

0

0.0000

28

0

0.0000

0

0.0000

28

0

0.0000

29

0

0.0000

0

0.0000

29

0

0.0000

30

1

0.0148

0

0.0000

30

0

0.0000

合计

6759

100.0000

21780958

100.0000

合计

51771

100.0000

 

上表中汉字部分只统计了二级简体字。动态频数是按“汉字频数统计”(贝贵琴等,1988)一书中的数据加权计算的。从图和表中都可发现,笔划数为7的汉字,频数不正常的低。我特地查考过“汉字信息字典”(李公宜和刘如水编,1988年)994页的表,看到那里的数字与我的基本一样,原来基础数字都是根据我国70年代完成的同一次统计。这样的大工程不可能出大错,尤其不可能只有7划的汉字频数出错,而且都偏少了。所以这个缺口到底意味著什么,很值得研究。

我再用横坐标x绘图如下。可见英文字长的分布更符合二项分布,图中带小圈的是实际曲线,不带的是理论曲线。N都取26,并列出了三条理论曲线的p(如英文的p=0.1416)

 

               n!

   y(k) = ━━━━━━━ pk(1-p)(n-k)

             k!(n-k)!

 

虽然图中汉字的理论曲线不很好,但它们应有同样的规律,应倾向于二项分布。无论是二项分布和对数正态分布,我们都还不能说明其中的机制。

 

    至于英文字母的分布,更早就有人研究过。个别字母如E出现频率很高,而J,Q,Z等则要少一百多倍。分布不均是意料得到的,但不会想到竟如此之大。从信息论角度计算它的熵等于-Σ P*log(P)=0.403,如果均匀分布则为 log(1/27)=4.76(加了一个空格字符,共27个)。从提高信息转播效率来说,应该分布均匀,但实际不可能。有什么深刻道理吗?对于语音不知有没有做过这样的研究?我认为汉字笔划相当于英文字母,不同的笔划数目和字母数相当,它们在文字中的作用也一样。我曾分为25种不同的汉字笔划,统计结果表明,汉字笔划分布的不均匀性更大。英文字母有次序,但按其本性,字母和笔划是没有序的。所以下列图表中,我就按其频数大小排了序。英文字母中不包括空格,上面所举的数据,如果扣掉空格,各个字母地频率也和我得到的一样。

 

国标二级字库中各汉字笔划统计

 N

英语自考课文中各字母统计

笔 划

静态频数

百分比

动态频数

百分比

 

字母

频数

百分比

  h

12388

17.3010

28959852

18.2136

1

E

30977

12.9823

  s

12109

16.9113

26299913

16.5407

2

T

22032

9.2335

  p

11725

16.3750

26255175

16.5125

3

A

19528

8.1841