关键词的提取是进行计算机自动文本分类和其他文本数据挖掘应用的关键。系统从语言的词性角度考虑,对传统的最大匹配分词法进行了改进,提出一种基于动词、虚词和停用词三个较小词库的快速分词方法(FS),并利用TFIDF算法来筛选出关键词以完成将Web文档进行快速有效分类的目的。实验表明,该方法在不影响分类准确率的情况下,分类的速度明显提高。
1