文字挖掘
此代码可用于为文档分配关键字,并从文档数据库中查找单词之间的关联规则。 此外,只需稍加修改,就可以使用搜索关键字创建文档建议系统。
入门
克隆此存储库
执行textMining.py
系统将要求您提供支持和信心。 输入那些,您将获得关联规则作为输出。
就是这样。 做得好!
先决条件
需要在计算机上安装python 3.6。
运行测试
编写代码的方式是,当您执行TextMining.py时,它将检查名为documentDatabase的文件夹并读取其中的所有.txt文件。 每个文本文件都充当一个单独的文档。 由于代码的输入应该是文档数据库,因此我们在documentDatabase文件夹中有多个文档。
读取所有文档,然后通过删除停用词来对其进行清洁。 使用词干进一步清除单词。 停用词列表可以在listOfStopWords.txt中找到
Example of stemmin
1