WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。
2022-12-11 20:31:45 373.39MB 自然语言理解 NLP 英文词库 英文词表
1
WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。
2022-03-22 09:07:10 373.39MB 自然语言理解 NLP 英文词库 英文词表
1
该数据集包括常用的英文单词,诸如beijing,shenzhen这种地名也包含在内,但是没有其他小一点的城市,内容相对更为精简,包含的专有名词并不偏,适合NLP中用于匹配相似单词等。
2019-12-21 21:33:53 152KB 词库
1
txt格式 只有英文词库 包含一些复数 过去式 做单词检查还不错
2019-12-21 18:51:53 725KB 英文词库;
1