20newsgroups数据集有三个版本。第一个版本19997是原始的并没有修改过的版本。第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集,不包含交叉文档和新闻组名(新闻组,路径,隶属于,日期)。第三个版本18828不包含交叉文档,只有来源和主题名。
2021-09-13 12:31:29 13.79MB sklearn 文本分类 20newsgroups 20newsbydate
1