基于互信息改进算法的新词发现对中文分词系统改进
2022-05-02 14:06:31 16KB 文档资料
速度更快、效果更好的中文新词发现 复现了之前的中的新词发现算法。 算法细节: 复现细节: 实测 在经过充分训练的情况下,用bakeoff2005的pku语料进行测试,能得到0.765的F1,优于ICLR 2019的的0.731 (注:这里是为了给效果提供一个直观感知,比较可能是不公平的,因为我不确定这篇论文中的训练集用了哪些语料。但我感觉在相同时间内本文算法会优于论文的算法,因为直觉论文的算法训练起来会很慢。作者也没有开源,所以有不少不确定之处,如有错谬,请读者指正。) 使用 使用前务必通过 chmod +x count_ngrams 赋予count_ngrams可执行权限,然后修改word_discovery.py适配自己的数据,最后执行 python word_discovery.py 更新 2019.12.04: 兼容python3,在python2.7和python3.5下测试通过
2022-04-23 21:07:21 226KB Python
1
概述 1.本程序用于中文新词发现。不依赖于已有词典、词库,输入中文文本,即可发现中文新词,属非监督式学习。 2.本程序支持中文2字新词、3字新词和4字新词的发现。 3.需要python3及以上。 算法参考 基于大规模语料的新词发现算法,顾森,《程序员》 不过,在顾森文章中提及的次数阈值、凝固度阈值、信息熵阈值是实数值,本程序支持基于统计的比值。 本程序,次数阈值、凝固度阈值、信息熵阈值参数设置分别为-c、-b、-e(统计比值),-C、-B、-E(实数值)。 使用 cnwd.py Input Output [options] options: -c CountThresholdPercent,(0,1),default=0.5 -C CountThreshold -b BindThresholdPercent,(0,1),default=0.5 -B BindThreshol
2022-04-23 20:27:39 2.28MB Python
1
领域自适应文本挖掘工具(新词发现、情感分析、实体链接等),基于少量种子词和背景知识
2021-12-29 16:49:58 2.6MB 文本挖掘
1
hmm的matlab代码HanLP: Han Language Processing 汉语言处理包 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-Bigram(速度与精度最佳平衡;一百兆内存) 、 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 、 词典分词(侧重速度,每秒数千万字符;省内存) 所有分词器都支持: 词性标注 (速度快) 、(精度高) 命名实体识别 基于HMM角色标注的命名实体识别(速度快) 、、、、 基于线性模型的命名实体识别(精度高) 、 关键词提取 自动摘要 短语提取 多音字、声母、韵母、声调 简繁分歧词(简体、繁体、台湾正体、香港繁体) 语义推荐、拼音推荐、字词推荐 依存句法分析 KMeans、Repeated Bisection、自动推断聚类数目k 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类 文档语义相似度计算 部分默认模型训练自小型
2021-12-02 20:45:43 21.43MB 系统开源
1
搜狗词库新词发现算法、常见的工具类、百度应用、翻译、天气预报、汉语纠错、字符串文本数据提取时间解析、实体抽取等等
2021-11-10 21:39:38 1.61MB 算法
1
如何快速高效地识别新词是自然语言处理中一项非常重要的任务,针对当前新词发现存在的 问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语 与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首 尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部 分新词无法识别以及通过 n-gram 方法导致大量重复词串和垃圾词串识别为新词的问题,最 后通过实验验证了该算法的有效性。
2021-11-09 12:07:30 1.27MB 研究论文
1
mynlp:一个生产级,高性能,预定,可扩展的中文NLP工具包。(中文分词,平均感知机,fastText,拼音,新词发现,分词纠错,BM25,人名识别,命名实体,自定义词典)
2021-10-26 17:08:50 1.16MB nlp segment pinyin fasttext
1
HarvestText Sow with little data seed, harvest much from a text field. 播撒几多种子词,收获万千领域实 在和上同步。如果在Github上浏览/下载速度慢的话可以转到上操作。 用途 HarvestText是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务,在小说分析,网络文本,专业文献等领域都有潜在应用价值。 使用案例: (实体分词,文本摘要,关系网络等) (实体分词,情感分析,新词发现[辅助绰号识别]等) 相关文章: 【注:本库仅完成实体分词和情感分析,可视化使用matplotlib】 (命名实体识别,依存句法分析,简易问答系统) 本README包含各个功能的典型例子,部分函数的详细用法可在文档中找到: 具体功能如下: 基本处理
1
python3利用互信息和左右信息熵的中文分词新词发现
2021-07-04 21:55:31 1.83MB Python开发-自然语言处理
1