在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。 (我已经尽量把脏话做成图片的形式了,要不然文章发不出去) 方法一:replace过滤 replace就是最简单的字符串替换,当一串字符串中有可能会出现的敏感词时,我们直接使用相应的replace方法用*替换出敏感词即可。 缺点: 文本和敏感词少的时候还可以,多的时候效率就比较差了 import datetime now = datetim
2021-09-11 11:43:02 224KB 敏感词 方法
1
行业分类-物理装置-一种离线实时多语种广播敏感词监听方法.zip
java 敏感词过滤的设计思路和技术问题
2021-09-07 15:46:37 20KB java 敏感词
1
python3.6 最简单的输入铭感词识别,读取txt文件中的词汇,判断输入字符中是否存在包含txt中的词汇,包含则替换。
2021-09-06 16:34:13 867B python 敏感词
1
行业分类-设备装置-一种敏感词检查方法和装置.zip
golang 敏感词过滤
2021-08-24 16:56:38 5.73MB Go开发-工具类
1
基于go语言和开源的包封装的一个敏感词过滤服务,可微服务独立部署,提供api给业务使用,占用内存少,搜索匹配快
2021-08-24 16:42:11 2KB Go开发-自然语言处理
1
快速敏感词过滤 即将停止和移除(本项目计划于1月31日停止和移除) 本项目计划于1月31日停止和移除,请谅解,谢谢。推荐以AC自动机替代 性能概述 使用60MB大小的小说测试,单核性能超过50M字符每秒(i7 2.3GHz)。 敏感词 14553 条 待过滤文本共 599254 行,30613005 字符。 过滤耗时 0.535 秒, 速度为 57220.6字符/毫秒 其中 39691 行有替换 优化方式 主要的优化目标是速度,从以下方面优化: 敏感词都是2个字以上的, 对于句子中的一个位置,用2个字符的hash在稀疏的hash桶中查找,如果查不到说明一定不是敏感词,则继续下一个位置。 2个字符(2x16位),可以预先组合为1个int(32位)的mix,即使hash命中,如果mix不同则跳过。 StringPointer,在不生成新实例的情况下计算任意位置2个字符的hash和mix Str
2021-08-21 15:01:01 122KB Java
1
行业分类-设备装置-敏感词编辑器.zip
go-wordsfilter 是一个高性能的 Go 敏感词过滤器,通过预先读取敏感词源并构建树状结构数据的方式来高效地检测和替换敏感词
2021-08-16 13:51:11 5KB Go开发-文本处理
1