主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用亲测可用, 谢谢支持。
2021-05-01 23:14:52 70KB 词频计算
1
深度学习的多标签文本分类 该存储库是我的研究项目,也是对TensorFlow,深度学习(Fasttext,CNN,LSTM等)的研究。 该项目的主要目的是解决基于深度神经网络的多标签文本分类问题。 因此,根据这种问题的特征,数据标签的格式类似于[0、1、0,...,1、1]。 要求 Python 3.6 Tensorflow 1.15.0 Tensorboard 1.15.0 斯克莱恩0.19.1 脾气暴躁的1.16.2 Gensim 3.8.3 Tqdm 4.49.0 项目 项目结构如下: . ├── Model │   ├── test_model.py │   ├──
1
简单高效的Bert中文文本分类模型开发和部署
2021-04-30 12:56:42 659KB Python开发-自然语言处理
1
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2021-04-29 21:39:30 70KB 词频计算
1
数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。
2021-04-28 20:49:58 61.06MB 文本分类
1
用于中文分词的切分词典,还有词性标注,以这个词典数据库为基础建立文本分类,文本检索或文本过滤可以节省很多时间.很全,强烈推荐
2021-04-28 13:03:24 213KB 分词 数据库 文本分类 文本检索
1
13个文本分类数据集,按train,test集顺序存储
2021-04-28 12:48:14 49.87MB 数据集 文本分类
1
文本分类语料库训练集,供学习测试使用。新闻类语料(已标签分类),包含经济、交通、教育、环境、体育、医药等类目共上千份新闻文本。
1
数据集来自国际文本信息检索会议(Text Retrieval Conference,TREC)中TREC2006的中文邮件和英文邮件数据集,供垃圾邮件分类学习使用
2021-04-24 19:36:02 176.55MB 垃圾邮件 文本分类 数据集
1
imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集 https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md
2021-04-24 16:21:47 292.19MB NLP
1