基于文本内容的自动文本聚类技术作为文本信息挖掘技术中的核心技术之一,其目标是 将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相 似度尽可能的小。 本文以中文文本作为文本聚类的挖掘对象,对文本集进行了中文文本预处理、文本聚类。 按照文中的方法步骤,设计了一个系统,实现了文本聚类的功能。
1