假新闻挑战
这是NLP课程的最终项目。
我们的工作包括以下几个部分:
数据预处理
常规机器学习方法
Seq2seq注意模型
TextCNN和暹罗网络
其他(例如比赛中的相关工作,未来的工作)
1.数据预处理
我们提供了几种数据预处理方法:BoW(单词袋),TF-IDF,word2vec,doc2vec。
每个py文件都会生成x_1(文档表示形式)x_2(标题表示形式)和y(标签)。
这些数据可以作为间谍数据输出,可以在模型中使用。
2.常规机器学习
我们提供py文件以通过常规机器学习(例如SVM,随机森林)对实例进行分类,代码在sklearn上实现。 环境要求:sklearn numpy
3. Seq2seq注意模型
这些代码通常基于一个带有预训练模型的基于注意力的序列到序列模型( )。 要使用代码生成文本摘要。 运行:python3 run_summarization.py -
1