字频的稳定性

 

 

 

    方块汉字,数量繁多,现知总字数已过十万。但是,其中绝大部分字,绝大部分人没有见过,更是认不得,用不到。多次统计证明,只要1000个不同汉字,就可覆盖应用文字的90%以上,2000个汉字则可覆盖98%以上,3000个汉字则可覆盖99.5%以上。下面是三份不同统计的数字。第一份资料是1977年完成的总字数为21657039的统计结果,我取自贝贵琴等汇编的《汉字频度统计》(电子工业出版社1988版),仅把毎个汉字的出现次数输入计算机,其中原来有一个作为零的符号,因不是汉字,已扣除。覆盖率是重新计算的,在小数尾数上与原书所列有点出入。第二份是王良辰2005622日到75日发在汉语拼音与输入法论坛上的,是“对ChenShuyuan先生转载清华大学统计资料进行了加工”所得,虽只有前2000个汉字的数据,但统计计总字数比第一份多4倍,达86405823。第三份资料也是从网上收集的,只有前2406个汉字的数据,我没记出处。从表中所列首十个汉字的不同顺序,就可知道三份资料是不同的,相互独立的。

 

 

 

               表二、 高频字覆盖率

 

 

          

字数

第一资料覆盖率

第二资料覆盖率

第三资料覆盖率

    10

11.3949

11.0465

11.8347

  50

27.6183

27.8309

27.6046

 100

39.2683

40.0125

39.2068

 200

54.9505

55.4813

54.8155

 300

65.1054

65.9172

64.9530

 500

77.4186

78.5320

77.4189

1000

90.7883

91.9153

91.2790

1500

95.8637

96.4756

96.1588

2000

98.0358

98.3877

98.1741

3000

99.5485

 

 

5000

99.9305

 

 

首十字

 

的一是在了

不和有大这

的一国在人

了有中是年

的国人一中

学在大有年

 

 

 

    从上表可见,在都有数据的2000个高频字内,不管是前1050个,还是150015002000个汉字,统计得的覆盖率都十分一致,相差多在1%之内,最大也只在1%左右。从第一份资料可知,5000字足可覆盖99.9%以上。这就是说,我们平均写1000个字的文章,最多使用1个在这5000个高频字以外的生僻字。我们完全可以避免使用、或不使用这个生僻字,用别的字或多字词代替,不影响信息交流和文字记录。果能如此,不仅省了许多学习文字的时间,更能在很多方面节省大量的人力物力。

    但是从表末所列的首十个字看,不仅在三份资料中,按频度的次序不一样,而且连汉字本身也有一半左右不一样:第一和第三份资料有一半,即5个字不同;第二和第三份资料中,相同的最多,也只有7个,有30%不相同。会不会是这样:从表面上看,3份资料的高频字覆盖率十分相近,而实际上由它们得到的高频字组成,却完全不同。为此,特地统计出下表(为行文方便,没列出具体的汉字):

 

 

 

               表二、   在各级高频字数中,3份资料相同汉字数

     

    

高频

第一第二资料

第一第三资料

第二第三资料

所有三份资料

第一份

第二份

第三份  

字数

相同数   %

%

相同数   %

%

相同数

%

相同数   %

%

独有字

独有字

独有字     

10

6

0.600

5

0.500

7

0.700

4

0.400

3

1

1       

50

36

0.720

36

0.720

41

0.820

33

0.660

11

6

5

100

70

0.700

68

0.680

78

0.780

62

0.620

24

13

15

200

143

0.715

141

0.705

176

0.880

135

0.675

51

16

18

300

228

0.760

215

0.717

263

0.877

206

0.687

63

14

29

500

407

0.814

395

0.790

448

0.896

384

0.768

82

28

41

1000

813

0.813

795

0.795

927

0.927

780

0.780

172

40

58

1500

1263

0.843

1247

0.831

1412

0.941

1218

0.812

207

42

59

2000

1711

0.856

1702

0.851

1886

0.943

1658

0.829

245

61

69

 

 

 

    由表二可见,不同的统计,由于进行的时期不同,因而所取的统计样本不一样,得到的高频字集合是不同的。1000个汉字的高频字集合,大概只有80%的汉字是相同的。虽然,随着高频字集合的增大,相同字的比例会提高。可惜我没有后两份资料的后半部分数据,不能确切估计5000个汉字的高频字集,会有百分之几的汉字相同,按所有三份资料相同字数的百分率趋势看,大概也只会在90%左右。第二和第三两资料的相同性高得多,大概因为统计的时间、所取的样本都相近,所以各汉字按频序的排列也接近。我统计了各个汉字在不同统计中的频序差,结果是:第一和第二份资料的频序差>1000的字数为128,和第三份资料的则大一倍,为253,而第二和第三份相比,这个数字小到只为1。频序差>500的相应数字分别为46772647

    表三是几个频序差较大的字例。第二第三两份资料一定是在改革开放、琛圳崛起之后,“圳赁崛琛娱”这几个原来不常用、频序很靠后的字,都大大提前了。第一份资料是在文革前后统计的,“孔(批孔)削杆(枪杆子)敌”等字用得多,频序靠前1300左右(不知道“尺”字为什么也靠前)。在短短的几十年时间里,字频竟有如此大的变化,我真怀疑能够按字频统计,科学地确定常用字集合,尤其是确定那些字限制使用或不准使用。你看,现在位置在1000以内的高频字“圳”,20年前还是远在5500之后的生僻字呢。

 

 

 

              表三、 字频序差较大的字例

 

 

 

 

例字

第一和第二的字频序差

在资料一中的序号

在资料二中的序号

在资料三中的序号 

4642

5510

868

958