上传者: 42116734
|
上传时间: 2021-11-16 18:44:41
|
文件大小: 215.26MB
|
文件类型: -
假新闻检测器
欢迎分类为假新闻。
目标
端到端的机器学习管道将:
提取原始文本数据。
将原始文本数据处理为段落向量
将受过训练的有监督学习分类器应用于段落向量,以将原始文本标记为fake或not_fake fake
知识
比较当今使用的词嵌入应用程序的不同方法
在两者上都使用像Gensim这样的神经嵌入实现
词向量化和
段落矢量化
超调谐神经嵌入算法作为端到端流水线的一部分
使用标准的行业分类器,并将其与端到端管道集成
对多阶段机器学习管道进行故障排除
结构
(第一阶段)假新闻分类:
分类器应用程序伪造新闻文本。
嵌入代码是为学生事先准备的,因此他们可以专注于应用分类器基础知识。
将关注度量(精度,召回率,F1)和模型选择
(第2阶段)文本嵌入技术:
什么是Word2Vec,什么是Paragraph2vec
回顾历史策略以及word2vec为什么效果更好
TF IDF(历史简