小项目
根据网页内容将网页分类为 Evergreen 或 Ephemeral 的本科未成年人(第 7 学期)项目
比赛链接: :
使用的技术:
RandomForest使用除 body 之外的所有字段
20倍简历分数: 80.7915%
Tf-Idf 矢量化体的逻辑回归20倍简历分数: 87.7833%
使用Kstratfold和SelectPercentile对Tf-Idf 矢量化主体进行逻辑回归,使用 chi去除异常值后20倍简历分数: 89.15924%
高斯朴素贝叶斯使用除 body 之外的所有字段
20倍简历分数: 70.379%
Tf-Idf 矢量化体上的线性 SVM
20倍简历分数: 86.8915%
Tf-Idf 与词干提取和标记化一起完成以提高准确性
PunktWordTokenizer
雪球茎
LemmaTokenizer(参见 LRwithchi
2021-07-13 20:06:00
80KB
Python
1