安全技术-网络信息-模因视角下网络语言的造机制和进化研究.pdf
2022-04-28 19:00:13 2.33MB 文档资料 安全 网络
全国各地区名胜古迹导游
2022-04-27 09:03:30 15KB 全国各地区名胜古迹导游词
提出了一种基于层叠隐马模型的汉语法分析方法,旨在将汉语分性标注、切分排歧和未登录识别集 成到一个完整的理论框架中1在分方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录典中收录的普 通一样处理1未登录识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识 别出未登录,并计算出真实的可信度1在切分排歧方面,提出了一种基于N2最短路径的策略,即:在早期阶段召回N 个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录识别和性标注之后,从N个最有 潜力的候选结果中选优得到1不同层面的实验表明,层叠隐马模型的各个层面对汉语法分析都发挥了积极的作用1实 现了基于层叠隐马模型的汉语法分析系统ICTCLAS, 该系统在2002年的“九七三”专家组评测中获得第1名,在2003 年汉语特别兴趣研究组(ACLSpecialInterestGrou ponChineseLan guageProcessing,SIGHAN )组织的第1届国际汉语分 大赛中综合得分获得两项第1名、一项第2名1这表明:ICTCLAS 是目前最好的汉语法分析系统之一,层叠隐马模 型能够解决好汉语法问题.
1
用来去除英文文章的停用代码,是一个c++的代码,已调试成功
2022-04-24 16:35:48 576B 停用词 自然语言处理
1
速度更快、效果更好的中文新发现 复现了之前的中的新发现算法。 算法细节: 复现细节: 实测 在经过充分训练的情况下,用bakeoff2005的pku语料进行测试,能得到0.765的F1,优于ICLR 2019的的0.731 (注:这里是为了给效果提供一个直观感知,比较可能是不公平的,因为我不确定这篇论文中的训练集用了哪些语料。但我感觉在相同时间内本文算法会优于论文的算法,因为直觉论文的算法训练起来会很慢。作者也没有开源,所以有不少不确定之处,如有错谬,请读者指正。) 使用 使用前务必通过 chmod +x count_ngrams 赋予count_ngrams可执行权限,然后修改word_discovery.py适配自己的数据,最后执行 python word_discovery.py 更新 2019.12.04: 兼容python3,在python2.7和python3.5下测试通过
2022-04-23 21:07:21 226KB Python
1
概述 1.本程序用于中文新发现。不依赖于已有典、库,输入中文文本,即可发现中文新,属非监督式学习。 2.本程序支持中文2字新、3字新和4字新的发现。 3.需要python3及以上。 算法参考 基于大规模语料的新发现算法,顾森,《程序员》 不过,在顾森文章中提及的次数阈值、凝固度阈值、信息熵阈值是实数值,本程序支持基于统计的比值。 本程序,次数阈值、凝固度阈值、信息熵阈值参数设置分别为-c、-b、-e(统计比值),-C、-B、-E(实数值)。 使用 cnwd.py Input Output [options] options: -c CountThresholdPercent,(0,1),default=0.5 -C CountThreshold -b BindThresholdPercent,(0,1),default=0.5 -B BindThreshol
2022-04-23 20:27:39 2.28MB Python
1
中文分 最短路分 N-最短路分 CRF分 索引分 极速典分 用户自定义性标注 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键提取 TextRank关键提取 自动摘要 TextRank自动摘要 短语提取 基于互信息和左右信息熵的短语提取 拼音转换 多音字 声母 韵母 声调 简繁转换 繁体中文分 简繁分歧(简体、繁体、臺灣正體、香港繁體) 文本推荐 语义推荐 拼音推荐 字推荐 依存句法分析 基于神经网络的高性能依存句法分析器 MaxEnt依存句法分析 CRF依存句法分析 语料库工具
2022-04-23 09:31:17 21.31MB 词海分析
1
全国各地区名胜古迹导游
2022-04-23 09:02:05 296KB 全国各地区名胜古迹导游词
全国各地区名胜古迹导游
2022-04-21 09:01:36 293KB 全国各地区名胜古迹导游词
全国各地区名胜古迹导游
2022-04-21 09:01:35 293KB 全国各地区名胜古迹导游词