是进行英文语言处理的必备工具。可以对英文语料进行词性标注,还可识别出名词性短语、命名实体,其正确性高达95%以上,是自然语言处理专业学生的不可或少的工具。
1
语言所公开的现代汉语语料库,通过分别查询3500个常用汉字,将所有数据进行清洗去重后的集合。共554026行,解压后约93.8M,带分词和词性标注
2022-11-28 11:20:25 25.77MB 中文语料库 分词 词性标注 现代汉语
1
本资源属于代码类,是一些nlp工具的使用 nlp 工具 word2vec nltk textblob crf++ (1)机器人 (2)中文翻译,及繁体转简体 (3)关键词提取,主题提取,摘要提取 (4)命名体识别 (5)分词 (6)情感分析,正负类分析 (7)近义词,同义词,句子相似性 (8)聚类,监督,无监督 (9)词性标注 (10)词向量提取
2022-11-05 14:56:59 1.49MB nlp 机器学习
1
人民日报统计出来的用于自然语言处理的中文词典
2022-10-02 19:02:52 626KB 自然语言处理 词性标注 中文分词
1
词性对照文件,可以用于NLP中自定义。
2022-09-09 15:37:21 3KB 词性标注
1
1、 已分词,且所有的符号(标点、限界符等)均算作一个词 2、 已标注,标注格式均为“/\w+”(利用 python 的正则表达式来表示) 3、 有空行,在 w
2022-08-04 18:00:09 553KB 测试 软件/插件 编程语言 windows
1
文件说明: raw_data.txt //原始数据集(语料库) handle.py //因为原始数据集很大,可以通过handle.py对去全量数据集进行处理,得到小的数据集 hmm1.py //隐马模型的实现代码
1
wiki.model wiki.model.trainables.syn1neg.npy wiki.model.wv.vecto 训练好的模型,需要自行下载 热评词,词性标注
2022-04-30 22:23:09 523.62MB python wiki 自然语言处理 词性标注
1
提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集 成到一个完整的理论框架中1在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普 通词一样处理1未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识 别出未登录词,并计算出真实的可信度1在切分排歧方面,提出了一种基于N2最短路径的策略,即:在早期阶段召回N 个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有 潜力的候选结果中选优得到1不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用1实 现了基于层叠隐马模型的汉语词法分析系统ICTCLAS, 该系统在2002年的“九七三”专家组评测中获得第1名,在2003 年汉语特别兴趣研究组(ACLSpecialInterestGrou ponChineseLan guageProcessing,SIGHAN )组织的第1届国际汉语分 词大赛中综合得分获得两项第1名、一项第2名1这表明:ICTCLAS 是目前最好的汉语词法分析系统之一,层叠隐马模 型能够解决好汉语词法问题.
1
hmm实现词性标注
2022-04-23 20:17:05 2.5MB hmm 隐马尔可夫模型 机器学习 viterbi
1