字频的稳定性
方块汉字,数量繁多,现知总字数已过十万。但是,其中绝大部分字,绝大部分人没有见过,更是认不得,用不到。多次统计证明,只要1000个不同汉字,就可覆盖应用文字的90%以上,2000个汉字则可覆盖98%以上,3000个汉字则可覆盖99.5%以上。下面是三份不同统计的数字。第一份资料是1977年完成的总字数为21657039的统计结果,我取自贝贵琴等汇编的《汉字频度统计》(电子工业出版社1988版),仅把毎个汉字的出现次数输入计算机,其中原来有一个作为零的符号,因不是汉字,已扣除。覆盖率是重新计算的,在小数尾数上与原书所列有点出入。第二份是王良辰2005年6月22日到7月5日发在汉语拼音与输入法论坛上的,是“对ChenShuyuan先生转载清华大学统计资料进行了加工”所得,虽只有前2000个汉字的数据,但统计计总字数比第一份多4倍,达86405823。第三份资料也是从网上收集的,只有前2406个汉字的数据,我没记出处。从表中所列首十个汉字的不同顺序,就可知道三份资料是不同的,相互独立的。
表二、
高频字覆盖率
|
字数 |
第一资料覆盖率 |
第二资料覆盖率 |
第三资料覆盖率 |
|
10 |
11.3949 |
11.0465 |
11.8347 |
|
50 |
27.6183 |
27.8309 |
27.6046 |
|
100 |
39.2683 |
40.0125 |
39.2068 |
|
200 |
54.9505 |
55.4813 |
54.8155 |
|
300 |
65.1054 |
65.9172 |
64.9530 |
|
500 |
77.4186 |
78.5320 |
77.4189 |
|
1000 |
90.7883 |
91.9153 |
91.2790 |
|
1500 |
95.8637 |
96.4756 |
96.1588 |
|
2000 |
98.0358 |
98.3877 |
98.1741 |
|
3000 |
99.5485 |
|
|
|
5000 |
99.9305 |
|
|
|
首十字 |
的一是在了 不和有大这 |
的一国在人 了有中是年 |
的国人一中 学在大有年 |
从上表可见,在都有数据的2000个高频字内,不管是前10个50个,还是1500、1500、2000个汉字,统计得的覆盖率都十分一致,相差多在1%之内,最大也只在1%左右。从第一份资料可知,5000字足可覆盖99.9%以上。这就是说,我们平均写1000个字的文章,最多使用1个在这5000个高频字以外的生僻字。我们完全可以避免使用、或不使用这个生僻字,用别的字或多字词代替,不影响信息交流和文字记录。果能如此,不仅省了许多学习文字的时间,更能在很多方面节省大量的人力物力。
但是从表末所列的首十个字看,不仅在三份资料中,按频度的次序不一样,而且连汉字本身也有一半左右不一样:第一和第三份资料有一半,即5个字不同;第二和第三份资料中,相同的最多,也只有7个,有30%不相同。会不会是这样:从表面上看,3份资料的高频字覆盖率十分相近,而实际上由它们得到的高频字组成,却完全不同。为此,特地统计出下表(为行文方便,没列出具体的汉字):
表二、 在各级高频字数中,3份资料相同汉字数
|
高频 |
第一第二资料 |
第一第三资料 |
第二第三资料 |
所有三份资料 |
第一份 |
第二份 |
第三份 |
||||
|
字数 |
相同数 % |
% |
相同数 % |
% |
相同数 |
% |
相同数 % |
% |
独有字 |
独有字 |
独有字 |
|
10 |
6 |
0.600 |
5 |
0.500 |
7 |
0.700 |
4 |
0.400 |
3 |
1 |
1 |
|
50 |
36 |
0.720 |
36 |
0.720 |
41 |
0.820 |
33 |
0.660 |
11 |
6 |
5 |
|
100 |
70 |
0.700 |
68 |
0.680 |
78 |
0.780 |
62 |
0.620 |
24 |
13 |
15 |
|
200 |
143 |
0.715 |
141 |
0.705 |
176 |
0.880 |
135 |
0.675 |
51 |
16 |
18 |
|
300 |
228 |
0.760 |
215 |
0.717 |
263 |
0.877 |
206 |
0.687 |
63 |
14 |
29 |
|
500 |
407 |
0.814 |
395 |
0.790 |
448 |
0.896 |
384 |
0.768 |
82 |
28 |
41 |
|
1000 |
813 |
0.813 |
795 |
0.795 |
927 |
0.927 |
780 |
0.780 |
172 |
40 |
58 |
|
1500 |
1263 |
0.843 |
1247 |
0.831 |
1412 |
0.941 |
1218 |
0.812 |
207 |
42 |
59 |
|
2000 |
1711 |
0.856 |
1702 |
0.851 |
1886 |
0.943 |
1658 |
0.829 |
245 |
61 |
69 |
由表二可见,不同的统计,由于进行的时期不同,因而所取的统计样本不一样,得到的高频字集合是不同的。1000个汉字的高频字集合,大概只有80%的汉字是相同的。虽然,随着高频字集合的增大,相同字的比例会提高。可惜我没有后两份资料的后半部分数据,不能确切估计5000个汉字的高频字集,会有百分之几的汉字相同,按所有三份资料相同字数的百分率趋势看,大概也只会在90%左右。第二和第三两资料的相同性高得多,大概因为统计的时间、所取的样本都相近,所以各汉字按频序的排列也接近。我统计了各个汉字在不同统计中的频序差,结果是:第一和第二份资料的频序差>1000的字数为128,和第三份资料的则大一倍,为253,而第二和第三份相比,这个数字小到只为1。频序差>500的相应数字分别为467、726和47。
表三是几个频序差较大的字例。第二第三两份资料一定是在改革开放、琛圳崛起之后,“圳赁崛琛娱”这几个原来不常用、频序很靠后的字,都大大提前了。第一份资料是在文革前后统计的,“孔(批孔)削杆(枪杆子)敌”等字用得多,频序靠前1300左右(不知道“尺”字为什么也靠前)。在短短的几十年时间里,字频竟有如此大的变化,我真怀疑能够按字频统计,科学地确定常用字集合,尤其是确定那些字限制使用或不准使用。你看,现在位置在1000以内的高频字“圳”,20年前还是远在5500之后的生僻字呢。
表三、
字频序差较大的字例
|
例字 |
第一和第二的字频序差 |
在资料一中的序号 |
在资料二中的序号 |
在资料三中的序号 |
|
圳 |
4642 |
5510 |
868 |
958 |
|
赁 |