简明英汉词典词库完全版!430万词条!!!最全词典整合收录!全网最多!俚语、短语、专业、新词全部收录!完美支持GoldenDict!一部在手,天下我有!
2023-06-23 11:59:34 132.71MB GoldenDict mdx 词典 词库
1
浅析网络新词的成因.doc
2022-10-16 13:00:48 17KB 互联网
1
中文新词提取与过滤研究综述,聂金慧,苏红旗,新词识别是中文信息处理领域的关键技术,而候选新词提取与垃圾串过滤是新词识别的必经阶段。中文文本不以特定的符号标志词的边界
2022-09-27 22:24:43 313KB 计算机应用技术
1
基于互信息改进算法的新词发现对中文分词系统改进
2022-05-02 14:06:31 16KB 文档资料
速度更快、效果更好的中文新词发现 复现了之前的中的新词发现算法。 算法细节: 复现细节: 实测 在经过充分训练的情况下,用bakeoff2005的pku语料进行测试,能得到0.765的F1,优于ICLR 2019的的0.731 (注:这里是为了给效果提供一个直观感知,比较可能是不公平的,因为我不确定这篇论文中的训练集用了哪些语料。但我感觉在相同时间内本文算法会优于论文的算法,因为直觉论文的算法训练起来会很慢。作者也没有开源,所以有不少不确定之处,如有错谬,请读者指正。) 使用 使用前务必通过 chmod +x count_ngrams 赋予count_ngrams可执行权限,然后修改word_discovery.py适配自己的数据,最后执行 python word_discovery.py 更新 2019.12.04: 兼容python3,在python2.7和python3.5下测试通过
2022-04-23 21:07:21 226KB Python
1
概述 1.本程序用于中文新词发现。不依赖于已有词典、词库,输入中文文本,即可发现中文新词,属非监督式学习。 2.本程序支持中文2字新词、3字新词和4字新词的发现。 3.需要python3及以上。 算法参考 基于大规模语料的新词发现算法,顾森,《程序员》 不过,在顾森文章中提及的次数阈值、凝固度阈值、信息熵阈值是实数值,本程序支持基于统计的比值。 本程序,次数阈值、凝固度阈值、信息熵阈值参数设置分别为-c、-b、-e(统计比值),-C、-B、-E(实数值)。 使用 cnwd.py Input Output [options] options: -c CountThresholdPercent,(0,1),default=0.5 -C CountThreshold -b BindThresholdPercent,(0,1),default=0.5 -B BindThreshol
2022-04-23 20:27:39 2.28MB Python
1
计算机英语 计算机专业时文选读 中英文翻译 IT热门新词 计算机专业英语名词解释 IT新词介绍 计算机专业英语阅读材料 希赛网软考学院IT英语
1
领域自适应文本挖掘工具(新词发现、情感分析、实体链接等),基于少量种子词和背景知识
2021-12-29 16:49:58 2.6MB 文本挖掘
1
hmm的matlab代码HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-Bigram(速度与精度最佳平衡;一百兆内存) 、 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 、 词典分词(侧重速度,每秒数千万字符;省内存) 所有分词器都支持: 词性标注 (速度快) 、(精度高) 命名实体识别 基于HMM角色标注的命名实体识别(速度快) 、、、、 基于线性模型的命名实体识别(精度高) 、 关键词提取 自动摘要 短语提取 多音字、声母、韵母、声调 简繁分歧词(简体、繁体、台湾正体、香港繁体) 语义推荐、拼音推荐、字词推荐 依存句法分析 KMeans、Repeated Bisection、自动推断聚类数目k 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类 文档语义相似度计算 部分默认模型训练自小型
2021-12-02 20:45:43 21.43MB 系统开源
1
搜狗词库新词发现算法、常见的工具类、百度应用、翻译、天气预报、汉语纠错、字符串文本数据提取时间解析、实体抽取等等
2021-11-10 21:39:38 1.61MB 算法
1