敏感派 使用python开发的极简的敏感词过滤系统 API清单 1.检测敏感词网址http://您的域/检查参数名请求类型可选长度字词POST错误65535返回格式:json {“ count”:1,“ data”:[[0,6,“ \ u6bcd \ u5b5d”]]} 2.过滤敏感词网址http:// your_domain / replace参数名请求类型可选长度字词POST错误65535返回格式:文字这是已经过滤的文本,还好 words.txt为敏感词文件 安装说明 先通过pip或easy_install安装bottle框架再修改localbottle里的端口设置和域名设置,再使用python启动即可*通过云环境的需要修改一下配置,保留wsgi.py,具体参考云环境的说明 更新说明 2014/10/7 1.完成核心检测和过滤API 2.集成瓶框架3.检测使用DFA过滤算法 carol
2023-03-23 16:14:51 51KB 系统开源
1
系统主要使用由北京师范大学2000级计算机系张人杰开发制作的基于多叉树的查找的Java工具包:alex-word-filter.jar,工具包自带有2445敏感词的词库。我只是做了简单的应用,写了个小系统。
1
敏感词过滤系统 更多详见 Ubuntu Linux下环境构建: sudo apt-get install python-pip pip install nltk pip install jieba pip install pymongo Config下config文件: 可以进行服务器配置,针对数据库中预定集合的不同区段列, 可以选择语言(中文,英文), 可以设置要过滤的文章数量,时间替换从最近前推 添加邮件通知系统,SendMailFlag =“是”#“否” 结果:细分filter_status为1表示通过过滤,为0表示不通过过滤 stopwords_chs和stopwords_eng为过滤词黑名单 可以随时添加要过滤的单词,一行一个 如果添加的过滤词无法正确被jieba分词,则同样方法将需要过滤的词和词频加入到主字典dict文件中或者用户字典user_dict,一行一
2021-10-25 20:02:20 1.84MB 系统开源
1