语言所公开的现代汉语语料库,通过分别查询3500个常用汉字,将所有数据进行清洗去重后的集合。共554026行,解压后约93.8M,带分词和词性标注。
2022-11-28 11:20:25 25.77MB 中文语料库 分词 词性标注 现代汉语
1
本文介绍了银行疑问句(BQ)语料库,这是一种用于句子语义对等识别(SSEI)的中文语料库。 BQ语料库包含来自1年在线银行客户服务日志的120,000个问题对。 为了有效地处理和注释来自如此大量日志的问题,本文提出了一种基于聚类的注释方法,以实现具有相同意图的问题。 首先,通过基于WordMover的距离(WMD)的亲和力传播(AP)算法将具有相同答案的重复数据删除问题聚集成堆栈。 然后,要求注释者为不同的意图类别分配集群问题。 最后,在相同的意图类别和不同的意图类别之间分别选择SSEI的正面和负面问题对。 我们还在语料库上展示了六个SSEI基准性能,包括最新算法。 BQ语料库是银行领域最大的手动注释中文公共SSEI语料库,不仅对中文问题语义匹配研究有用,而且对跨语言和跨域SSEI研究也有重要意义。 该语料库在公众场合可用。
2022-03-11 13:06:58 308KB 研究论文
1
PKU语料库,免费供广大自然语音爱好者你能方便下载人民日报提供的汉语语料库。方便学习。训练集pku_training.utf8,用来训练模型的参数,测试集 pku_test.utf8,用来测验模型的最终准确率。
2021-10-20 22:17:25 50.2MB 汉语语料库 icwb2 NLP 自然语音
1
现代汉语语料库基本加工规范2003年版.pdf
2021-08-03 22:07:06 1.3MB nlp 自然语言处理 词料
1
分类词频是文本分析中非常重要的内容。本资源把常用的分类词收集起来,方便大家在做文本分析时使用。有了本资源,大家可以提高文本分析的效率
2021-06-19 17:48:27 2.12MB 汉语预料,分类词频
1
古代汉语语料库汉字频率表,语料规模:1500万字
2021-04-21 22:20:14 708KB 古代汉语 语料库 汉字频率表
1
LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库
2019-12-21 21:46:10 6.34MB 语料库
1
百万级别汉语语料库,包含各种常用词库,网络,小说,文言文,新闻,课本,散文,
2019-12-21 20:31:22 154.49MB 汉语语料库
1
汉语语料库,包含9000多个文本,涵盖新闻、论文、散文、小说等多种类型的文本,经过了分词和词性标注的精加工。
2019-12-21 20:13:19 31.68MB 语料库
1