我自己写的新闻解析器从网页中提取的,支持多页新闻,效果不错。
2021-09-10 07:00:45 10.9MB 语料库 自然语言处理
1
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
2021-08-31 09:06:48 48.43MB 人工智能 深度学习 NLP
1
利用htmlparser爬虫工具抓取门户网站上新闻,代码实现了网易、搜狐、新浪网上的新闻抓取。
2021-08-12 14:49:17 3.25MB htmlparser 新浪新闻 新闻抓取
1
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn
1
数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。
2021-04-28 20:49:58 61.06MB 文本分类
1
初学者学习网络爬虫,爬取新浪新闻的代码,代码结构完整,并可以显示出爬取成功次数
2021-04-26 22:43:18 630B 爬虫代码
1
基于爬取疫情期间新浪新闻评论、b站弹幕,运用NLP技术进行社会舆论分析的练习项目
2021-04-07 18:06:14 218.46MB 疫情
1
利用JSoup对新浪新闻网页源码进行解析,提取新闻数据到APP中,可以实现对新闻的实时刷新
2019-12-21 20:55:50 20.11MB Android
1
python3.x 爬取新浪新闻-国内新闻的时间,标题,详细内容链接
2019-12-21 19:32:50 412B python 爬虫
1
实现读取新浪新闻的RSS源,并显示新闻内容,使用C#开发
2019-12-21 19:25:35 49KB 新浪 新闻 RSS C#
1