英文停用典(进行文本分时使用),亲测可用,较全
2021-10-28 22:02:13 2KB 停用词 分词 英文语料
科大讯飞离线命令识别Demo
2021-10-28 21:22:53 13.08MB 命令词识别
1
此模型既可以用于训练向量,也可以将句子表示成句子向量,质量都比较高
1
很全的中文停用:哈工大、四川大学人工智能实验室、百度的。GitHub上有,免费的,是一个很优秀的人收藏的,我只是老告诉大家,毕竟我也找了好久可以免费下的。
2021-10-28 15:56:08 14KB 中文停用词
1
把关键字、算符、界符称为语言固有的单,标识符、常量称为用户自定义的单。为此设置三个全程量:SYM,ID,NUM 。 SYM:存放每个单的类别,为内部编码的表示形式。 ID:存放用户所定义的标识符的值,即标识符字符串的机内表示。 NUM:存放用户定义的数。
2021-10-28 15:50:09 9KB PL/0语言 编译原理
1
淘宝,天猫店主必备工具: 软件功能: 1)通过 关键 - 产品ID 批量查询 该产品在【淘宝】的排名情况。例如第几页。 2)通过 关键 - 掌柜名称 批量查询 该店铺下面含此关键的产品在【淘宝】的排名情况。 3)通过 关键 - 产品ID 批量查询 该产品在【天猫】的排名情况。例如第几页。 4)通过 关键 - 掌柜名称 批量查询 该店铺下面含此关键的产品在【天猫】的排名情况。 5)批量查询同行产品的下架时间。 6)取淘宝下拉和下拉对应的联想"(您是不是想找:)"这类。 做过淘宝的人都知道,如果不清楚自己的热卖产品在搜索某个关键时,排在哪个位置,简直是不可想像的。 一个成功的淘宝店主,至少对本店比较热门的产品排在搜索结果第几页,应该是比较清楚的。反之,一个失败的淘宝店主,只会埋头上传产品,或者毫无目的刷销量,刷信誉,刷流量。事实上,28理论在淘宝上也是一样成立的,也就是说:淘宝上赚钱的人大约占2成,不赚钱或亏钱的人大约占8成。一个店假如有100件产品,真正带来利润和热卖的最多是20多件,而不可能每件都热卖。所以做淘宝的人大忌就是胡子眉毛一把抓,今天看到别人这个卖的好,赶快上架,明天看到那个卖的好,再上架,永远追着别人的脚步,而没有自己的主打核心产品。 为什么要使用关键字查询软件? 因为要了解您的产品对应某个关键的排名。关键越热门,假如您的排名越靠前的话,肯定这款是重点优化对象,对于优化,或者提高转化率也应该是非常有帮助的。
1
mynlp:一个生产级,高性能,预定,可扩展的中文NLP工具包。(中文分,平均感知机,fastText,拼音,新发现,分纠错,BM25,人名识别,命名实体,自定义典)
2021-10-26 17:08:50 1.16MB nlp segment pinyin fasttext
1
敏感过滤 python3 测试过滤效果 python -m speachless.test 输出json文件 至 dist python -m speachless.sensitive_tree 简介 speachless/lib 敏感库, 三个种类,涉政, 色情, 自定义. speachless/sensitive_tree.SensitiveTree 根据库中的敏感构造检测tree speachless/sensitive_filter.SensitiveFilter 检测输入内容是否与敏感匹配 使用 git archive master | tar -x -C /project/xxx/speachless ** 应该将以下对象 作为全局变量避免每次重新初始化 tree 造成额外开销 ** ** 当导入外部库时, 应避免库中存在特殊字符** sensit
2021-10-25 20:03:07 10KB python text-filter china-law Python
1
敏感过滤系统 更多详见 Ubuntu Linux下环境构建: sudo apt-get install python-pip pip install nltk pip install jieba pip install pymongo Config下config文件: 可以进行服务器配置,针对数据库中预定集合的不同区段列, 可以选择语言(中文,英文), 可以设置要过滤的文章数量,时间替换从最近前推 添加邮件通知系统,SendMailFlag =“是”#“否” 结果:细分filter_status为1表示通过过滤,为0表示不通过过滤 stopwords_chs和stopwords_eng为过滤黑名单 可以随时添加要过滤的单,一行一个 如果添加的过滤无法正确被jieba分,则同样方法将需要过滤的频加入到主字典dict文件中或者用户字典user_dict,一行一
2021-10-25 20:02:20 1.84MB 系统开源
1
snomedct.pdf
2021-10-25 18:03:22 7.39MB 医学术语 医学主题词
1