来自 kaggle官网的 StumbleUpon Evergreen Classification Challenge数据集 1.可用于决策树二元类机器学习. 2.产品分类模型的训练 3.推荐算法的训练 2.文件内容包括: ---train.tsv 训练集 22.0MB ---test.tsv 测试集 9.4MB ---sampleSubmission.csv 22.0KB ---raw_comtent.zip 164.8MB
2021-08-09 19:49:22 168.15MB kaggle StumbleUpon 数据集 数据挖掘
1
小项目 根据网页内容将网页分类为 Evergreen 或 Ephemeral 的本科未成年人(第 7 学期)项目 比赛链接: : 使用的技术: RandomForest使用除 body 之外的所有字段 20倍简历分数: 80.7915% Tf-Idf 矢量化体的逻辑回归20倍简历分数: 87.7833% 使用Kstratfold和SelectPercentile对Tf-Idf 矢量化主体进行逻辑回归,使用 chi去除异常值后20倍简历分数: 89.15924% 高斯朴素贝叶斯使用除 body 之外的所有字段 20倍简历分数: 70.379% Tf-Idf 矢量化体上的线性 SVM 20倍简历分数: 86.8915% Tf-Idf 与词干提取和标记化一起完成以提高准确性 PunktWordTokenizer 雪球茎 LemmaTokenizer(参见 LRwithchi
2021-07-13 20:06:00 80KB Python
1
StumbleUpon Evergreen数据,来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。 StumbleUpon 是一个个性化推荐引擎,根据用户的兴趣行为给用户推荐网页,而有些网页内容是即时性(ephemeral)的,比如新闻股票网页(用户短暂感兴趣),有些网页是长久性的(evergreen)如体育,理财等(用户持续感兴趣)。现要分辨网页是ephemeral的还是evergreen的,以便向用户推荐更加准确的网页。 这是一个二分类问题。 查看StumbleUpon数据的详细信息:https:www.kaggle.com/c/stumbleupon/data
2020-01-03 11:39:36 168.26MB StumbleUpon
1
kaggle中的stumbleupon数据集,需要许多步骤才能下载到,上传方便各位下载
2019-12-21 21:42:16 165.24MB 机器学习
1