基于朴素贝叶斯分类的垃圾词检测
语言go python
go get -u 的方式进行安装
EXPLAINATION
config.json 服务运行配置文件
SOCK_FILE: 服务以Unix Domain Socket 方式运行的时候sock文件的存放位置
WORKSPACE: 代码根目录,spamcheck.go文件的位置
CLASSES: 分类类别,至少2个。每个分类需要有对应的先验概率词典文件,示例:分类为adwords,则同级目录下需要有adwords.txt,字典越大,服务的分类结果越准确。
DICTIONARYFILE:sego库分类字典,需要手动指定,文件路径为绝对路径;分词准确度可以通过自定义字典进行替换。
SOCKET_BUFFER_SIZE:服务以Unix Domain Socket的方式运行的时候,缓冲区大小,可以根据数据量的大小进行调试。
spamcheck.go: 垃圾词检测主文件
README.md:服务介绍文件
requirements.txt: 项目依赖第三方库列表
*.txt: 根据config.json 中CLASSES 指定的