文本分类语料库(复旦)训练语料,本语料库由复旦大学李荣陆提供,共9804篇文档,两个预料各分为20个相同类别。
2024-06-27 11:46:10 52.26MB 文本分类
1
中文文本分类语料库
2023-03-04 20:51:30 113.53MB 中文文本分类
1
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
2022-05-21 16:37:46 51.14MB 语料库 复旦 测试
1
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
2022-04-07 22:32:01 15.96MB 搜狗 分类 语料库
1
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明来源(复旦大学计算机信息与技术系国)
2021-12-24 15:11:46 52.33MB 文本分类 语料
1
NLP文本分类语料库(复旦)语料训练集
2021-12-06 10:12:26 52.56MB NLP 文本 分类语料库 训练集
1
文本分类语料库,中文,训练集和测试集
2021-09-03 12:38:29 2.65MB 文本分类
1
text_classify 以复旦中文文本分类语料库为样本,用python实现的文本分类算法 由于训练集和测试集太大,所以给出的是训练集和测试集的下载地址,以及停用词表hlt_stop_words.txt Python版本为2.7 运行顺序: step1:corpus_segment.py step2: corpus2Bunch.py (需要提前创建目录train_word_bag和test_word_bag) step3: TFIDF_space.py step4:NBayes_Predict.py
2021-08-20 18:08:05 9KB Python
1
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。 应用案例:中文文本分类,主题跟踪与检测等。
2021-08-04 18:11:29 158KB 语料库 自然语言处理 分词
复旦大学谭松波中文文本分类语料库 中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。
2021-05-20 21:20:22 50.38MB 1
1