搜索【新浪新闻】的结果

我自己写的新闻解析器从网页中提取的，支持多页新闻，效果不错。

2021-09-10 07:00:45 10.9MB 语料库 自然语言处理

1

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

2021-08-31 09:06:48 48.43MB 人工智能 深度学习 NLP

1

java 新浪网易搜狐新闻抓取源码

利用htmlparser爬虫工具抓取门户网站上新闻，代码实现了网易、搜狐、新浪网上的新闻抓取。

2021-08-12 14:49:17 3.25MB htmlparser 新浪新闻 新闻抓取

1

TextClassification：基于scikit-learn实现对新浪新闻的文本分类，数据集为100w篇文档，总计10类，测试集与训练集1：1划分。分类算法采用SVM和Bayes，其中Bayes作为基线-源码

新浪新闻文本分类语料库重建本项目的语料来源新浪新闻网，通过spider.py爬虫模块获得全部语料，总计获得10类新闻文本，每一类新闻文本有10条。采纳新浪新闻网的一个api获取新闻文本，api的url为使用进度池并发执行爬虫，加快抓取速度。数据预处理本项目的数据预处理包括：分词处理，去噪，向量化，由stopwords.py模块，text2term.py模块，vectorizer.py模块实现。本项目借助第三方库解霸完成文本的分词处理。通过停用词表移除中文停用词，通过正则表达式消除数字（中文数字＆阿拉伯数字）。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪，加快数据预处理的过程。把数据集1：1划分为训练集和测试集，各50w篇文档。通过scikit-learn提供的CountVectorizer类完成矢量化，得到训练集和测试集两个文本的特征矩阵，矩阵类型为稀疏矩阵。移除文档中文档频率小于0.1％的特征，这些特征我们认

2021-05-14 10:13:12 98KB data-mining text-classification svm scikit-learn

1

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻，每类新闻65000条文本数据，训练集50000条，测试集10000条，验证集5000条。

2021-04-28 20:49:58 61.06MB 文本分类

1

新浪新闻爬取代码

初学者学习网络爬虫，爬取新浪新闻的代码，代码结构完整，并可以显示出爬取成功次数

2021-04-26 22:43:18 630B 爬虫代码

1

爬取疫情期间新浪新闻评论、b站弹幕，运用NLP技术进行社会舆论分析

基于爬取疫情期间新浪新闻评论、b站弹幕，运用NLP技术进行社会舆论分析的练习项目

2021-04-07 18:06:14 218.46MB 疫情

1

新浪新闻APP

利用JSoup对新浪新闻网页源码进行解析，提取新闻数据到APP中，可以实现对新闻的实时刷新

2019-12-21 20:55:50 20.11MB Android

1

python3.x 爬取新浪新闻-国内新闻的时间，标题，详细内容链接

2019-12-21 19:32:50 412B python 爬虫

1

新浪新闻RSS阅读器（C#版）

实现读取新浪新闻的RSS源，并显示新闻内容，使用C#开发

2019-12-21 19:25:35 49KB 新浪新闻 RSS C#

1

个人信息

热门下载

最新下载

其他资源