假新闻检测器 欢迎分类为假新闻。 目标 端到端的机器学习管道将: 提取原始文本数据。 将原始文本数据处理为段落向量 将受过训练的有监督学习分类器应用于段落向量,以将原始文本标记为fake或not_fake fake 知识 比较当今使用的词嵌入应用程序的不同方法 在两者上都使用像Gensim这样的神经嵌入实现 词向量化和 段落矢量化 超调谐神经嵌入算法作为端到端流水线的一部分 使用标准的行业分类器,并将其与端到端管道集成 对多阶段机器学习管道进行故障排除 结构 (第一阶段)假新闻分类: 分类器应用程序伪造新闻文本。 嵌入代码是为学生事先准备的,因此他们可以专注于应用分类器基础知识。 将关注度量(精度,召回率,F1)和模型选择 (第2阶段)文本嵌入技术: 什么是Word2Vec,什么是Paragraph2vec 回顾历史策略以及word2vec为什么效果更好 TF IDF(历史简
2021-11-16 18:44:41 215.26MB machine-learning pipeline word2vec classification
1
资源涵盖US News、软科、QS、THE最新(2021/11/10)世界大学排名数据及相应的获取数据所用的python脚本
2021-11-15 14:07:38 13.21MB python 大学排名
1
0.快速开始 挑战杯项目:金融文本情感分析模型|| 挑战杯项目:财务文本情感分析模型 金融领域短文本情感分析 配置要求: python 3.x 1.使用方法 1.0下载 sudo git clone https://github.com/AsuraDong/news-emotion.git news_emotion mv -R ./news_emotion/ 你的程序路径/ 1.1文件结构 clean_data / # 清洗数据 __init__ . py clean_html . py # 清洗网页标签 langconv . py # 简体和繁体转化 zh_w
2021-11-11 15:02:35 3.6MB python nlp finance machine-learning
1
上市公司新闻文本分析与分类预测 简介 上市公司新闻文本分析与分类预测的基本步骤如下: 从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据(包括时间、网址、标题、正文) 从Tushare上获取沪深股票日线数据(开、高、低、收、成交量和持仓量)和基本信息(包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等) 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该条新闻相关的股票代码列表,并在历史数据表中增加一列相关股票代码数据 从历史新闻数据库中抽取与某支股票相关的所有新闻文本,利用该支股票的日线数据(比如某一天发布的消息,在设定N天后如果价格上涨则认为是利好消息,反之则是
2021-10-27 10:54:26 5.39MB machine-learning text-mining webcrawling Python
1
Datawhale learning dataset articles.csv testA_click_log.csv train_click_log.csv articles_emb.csv
2021-10-26 22:07:55 424.4MB 数据集
1
MySql练习1:创建数据库表news.zip MySql练习1:创建数据库表news.zip MySql练习1:创建数据库表news.zip
2021-10-24 17:54:36 3KB mysql
1
transformer_news:基于transformer的中英文平行语料翻译系统
2021-09-28 17:19:16 25.38MB 系统开源
1
新闻推荐的MIND数据集是从Microsoft新闻网站的匿名行为日志收集的。 MIND Microsoft News Recommendation Dataset_datasets.txt
2021-09-23 13:15:03 367B 数据集
1
消息 基于Django前阶段分离开发-新闻管理系统 一,开发目的 通过新闻系统前逐步分离开发,在引入开发api的过程中让你快速熟练掌握django rest framework框架的开发,让你要项目实战中掌握rest标准api的开发技术。的掌握django模板调用api的过程。 二,开发环境 •开发工具:Pycharm •开发环境为:Windows10,Python3.6.8,Django2.0.3,djangorestframework(3.8.2) •数据库:Mysql5.6 •前端:Div + Css,ajax •初期:Django2.0.3,djangorestframework(3.8.2) 三,创建项目和应用 django-admin.py startproject newsapi python manage.py startapp article 四,安装项目所需依赖
2021-09-22 10:54:12 17.34MB 系统开源
1
News_recommend 本次项目是基于大数据计算引擎的新闻推荐系统--"今日小站",包含了爬虫,新闻网站(前端和后端),推荐系统(Spark)。 前端效果: 一.爬虫 开发环境: pycharm+python3 软件架构: mysql+scrapy+splash 项目描述: 爬虫项目负责重复爬取今日头条首页新闻,去除重复新闻,存入mysql。 二.新闻网站: 开发环境: IntelliJ IDEA + maven + git + linux 软件架构: mysql + springboot 项目描述: 今日小站是基于springboot框架搭建的web项目,用户在网站完成注册登录后,网站会记录用户的浏览行为。同时网站也会把推荐结果呈现给用户。 三.推荐系统: 开发环境: IntelliJ IDEA + maven + git + linux 软件架构: zookeeper + flu
2021-09-15 14:03:10 25.6MB Scala
1