1.2国内外研究现状
国外自动分类研究开始于1950年代末,H.P.Luhn在这一领域进行了开创性的
研究,他首先将词频统计的思想用于文本分类中。1960年Maron在Journal of ASM
上发表了有关自动分类的第一篇论文“On relevanee,pr。bab¨itic i ndexing and
inf。rmation fetnral”。1962年博科(H.Borko)等人提出了利用因子分析法进行
文献的自动分类。其后许多学者在这一领域进行了卓有成效的研究。国外的自动分
类研究大体上可以分为三个阶段:第一阶段(1958年1964年)主要进行自动分类的
可行性研究:第二阶段(1965年一1974年),自动分类的实验研究:第三阶段(1975年一
至今),自动分类的实用化阶段⋯㈩⋯⋯⋯。现已在邮件分类、电子会议、信息
过滤等方面取得了较为广泛的应用,其中较为成功的系统有麻省理工学院(MIT)为
白宫丌发的邮件分类系统、卡内基集团为路透社丌发的construe系统等。
国内自动分类研究起步较晚“¨“,始于20世纪80年代初期。1981年侯汉清对
计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计
算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,困内的
研究者在英文文本分类研究的基础上采取相应策略,结合中文文本的特定知识,然
后应用于中文之上,继而形成中文文本自动分类研究体系。到目前为止,我国陆续
研制出一批计算机辅助分类系统和自动分类系统。例如中国科学院、清华大学、北
京大学、北京信息工程学院、上海交通大学、复旦大学、东北大学、山西大学、同
济大学、南京大学、浙江大学以及西安电子科技大学等单位都有相应的研究成果,
也研制出了不少的实验系统。这其中有基于人工智能技术的分类系统,有基于统计
学技术的分类系统,还有基于模糊技术的分类系统,近几年基于统计知识的分类方
法占主流,也不乏有基于规则的分类方法。
国外当前流行的文本分类方法有k近邻法(KNN)”3、决策树”1、朴素贝叶斯(NB)
‘⋯、支持向量机(sVM)‘⋯、神经网络(NNet)Ⅲ”Ⅲ。1、线性最小平方拟合(LLsF)法⋯1、
最大熵模型“⋯、回归模型㈨㈨、遗传算法⋯1等方法。这些方法在英文文本自动分
类上有广泛的研究,而且很多研究表明KNN和SVM是英文文本分类的最好方法。国
外很多研究人员对英文文本分类领域的各个问题都有相当深入的研究,对几种流行
的方法进行了大量的对比研究。Yiming Yang and xin Liu“51对SvM、KNN、LLsF、
Nnet和NB这5种方法进行了专门的比较研究。
国内当前流行的文本分类方法有k近邻法(KNN)”6¨“1、朴素贝叶斯(naive
1