最近做了些关于关键词(敏感词)过滤、lucene搜索方面的编码工作,整理了一些词库,共享给大家,希望用得着。所有词库都是纯文本格式的。
2021-07-06 17:37:04 255KB 搜狗 词库 敏感词 停用
1
高效敏感词过滤JAVA实现(DFA算法) 5000字2ms 节点 + 2进制标识(节省空间/提高查询效率) 附源码、注释,附带专业敏感词库(3396个敏感词) 看得上就拿去用,替换下一两处util方法、改个路径即可 不求什么,用得好的话,记得有那么一个人提供就够了。 如遇问题,欢迎交流。 QQ 463550192 普通PC测试结果: 2015-5-1 加载时间 : 41542826ns 加载时间 : 41ms 解析字数 : 5000 解析时间 : 2295131ns 解析时间 : 2ms
1
java 实现的敏感词操作,代码包含web接口实现,可对词库进行 动态增加,删除,检测,敏感词库10W词, 1.java 敏感词代码,及web 接口 2.基础敏感词库 包含10W敏感词
2021-06-11 09:42:51 533KB 敏感词
1
博客资源
2021-06-09 09:01:39 179KB 敏感词屏蔽 dfa算法
1
敏感词屏蔽
2021-06-06 13:02:45 310B python 代码 屏蔽敏感词
1
初始化敏感词库,将敏感词加入到HashMap中,构建DFA算法模型,采用java文件流读取敏感词txt,采用dfa算法来构建模型,达到java实现敏感词过滤。 8000多敏感词汇。 Java敏感词过滤工具类。
2021-06-03 13:59:39 1.45MB java 敏感词过滤 DFA算法模型 java工具类
1
对开发中敏感词进行检索,该压缩包只是对数据库中2字以上敏感词检索的java代码并没有上传敏感词数据库(测试HTML版本)
2021-05-26 09:05:24 157KB java 敏感词
1
(1)编写界面,输入一个网址,能够爬取该网址上所有的HTML源代码。 (2)对网址中的文本进行提取。 (3)建立敏感词库,用文本文件保存。 (4)将该网址所对应的文本中的敏感词提取并高亮显示。 (5)编写文本文件,可以存入多个网址;程序可爬取这些网址中的文本内容,将敏感词记录存入另一个文件,格式自定。 (6)编写一个主界面,整合上述功能。
2021-05-15 08:48:03 5KB JAVA 爬虫 课程设计 实验
1
2021最近整理脏字典
2021-05-10 22:00:11 25KB 敏感词 脏字典
1
DFA算法+敏感/违禁词过滤,高效过滤,10W+词语过滤,100ms执行时效
2021-05-09 10:56:17 555KB DFA算法 敏感词过滤 过滤违禁词
1