针对微博数据的停用词表
2022-05-18 19:07:21 21KB Hive 停用词
1
Sheet1课本主题单词中文音标手机软件对应单元相关说明七上Unit1Germanadj.n.德国的,德国人的,德语[ˈdʒɜːmən]单元-1本单词表经314hjy于2016年1月整理,并生成了配套
2022-05-14 21:17:23 16.89MB 初中教育 初中学案
1
代码主要实现分词并获取关键词,并附有停止词(文本分词时,删除停用词)
2022-04-19 14:01:08 7KB tfidf
1
GRE学习要你命3000词表.xlsx,有总列表和1-30list,每天有100个词汇目录,如果坚持下来,英语词汇量那都不是个事
2022-04-04 20:35:34 425KB GRE
1
为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词就形成一个停用词表
2022-03-26 16:41:58 3KB 停用词
1
原表教材课本单元单词中文音标初中译林七上1ohexcl.哦,啊[əʊ]初中译林七上1e-dogn.电子狗初中译林七上1mastern.主人;大师[ˈmɑːstə]初中译林七上1graden.年级[gr
2022-03-23 16:21:20 45.36MB 小学教育 小学试题
1
WikiText 英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的 Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(long term dependency)自然语言建模的场景。
2022-03-22 09:07:10 373.39MB 自然语言理解 NLP 英文词库 英文词表
1
中国分类主题词表(2版)电子版专题:中国分类主题词表电子版本专题主要内容一.中分法修订情况二.中分法电子版一中国分类主题词表历史中国分类主题词表是在中图法编委会的主持下从1987年开始由全国40个图书
2022-03-10 18:55:40 6.76MB 高等教育 大学课件
1
对于初级或者中级研究这个词表还是挺好用的,基本的中英文停用词和符号等都能去掉,可能如果做到深度研究这个词表还是有点瑕疵
2022-03-06 16:07:40 24KB 停用词 文本处理 stopword
1
包含有1800词的停词表,其中有添加了些常在微博上出现的表情,或是与微博平台无关的词。用于在分词时删除其中低频词或是无意义词,便于提取关键信息
2022-02-24 12:31:49 12KB 文档分词 停词表
1