20w+新闻文本数据包含标题,正文,关键字,爬取链接,共20类,种类齐全。
2021-11-26 09:11:06 639.43MB 新闻文本数据
1
新闻文本数据挖掘案例——基于词向量化得数据挖掘
2021-11-10 18:07:18 420KB 数据挖掘 TfidfVectorizer CountVectorizer
上市公司新闻文本分析与分类预测 简介 上市公司新闻文本分析与分类预测的基本步骤如下: 从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据(包括时间、网址、标题、正文) 从Tushare上获取沪深股票日线数据(开、高、低、收、成交量和持仓量)和基本信息(包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等) 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该条新闻相关的股票代码列表,并在历史数据表中增加一列相关股票代码数据 从历史新闻数据库中抽取与某支股票相关的所有新闻文本,利用该支股票的日线数据(比如某一天发布的消息,在设定N天后如果价格上涨则认为是利好消息,反之则是
2021-10-27 10:54:26 5.39MB machine-learning text-mining webcrawling Python
1
由于词汇敏感之类的原因,每次发布都审核失败,于是转为图片上传了!相关代码在文末附录中。 数据来源:2020记忆:报道、非虚构与个人叙述(持续更新) 附录: t1.py: #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2020/2/12 13:02 # @Author : ystraw # @Site : # @File : t1.py # @Software: PyCharm Community Edition # @function: 从github指定链接中进行数据获取 #
2021-07-10 16:08:19 2.29MB 数据 数据分析
1
适合做文本分类,软件杯
2021-05-13 22:06:00 8KB npl 软件杯
1
5000条新闻中文文本数据,可用于文本分类任务
2021-04-15 03:49:07 4.08MB 数据集
1