遗忘算法演示程序及源码,功能包括词库生成、分词、词权重计算。是CSDN博文《非主流自然语言处理——遗忘算法系列》的配套资源。作者老憨欢迎交流讨论。
2021-11-03 14:44:27 35.95MB 自然语言处理 遗忘算法
1
简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。
2021-04-02 21:25:41 4KB 词库生成
1