本次建设的新闻舆情监控系统,其系统用例分别为用户和管理员。用户具有用户登录、新闻查看、观看新闻、新闻评论、个人信息查看、个人信息修改、用户退出等功能。管理员具有新闻管理、留言管理、个人信息管理、修改密码、舆情监控等功能。 使用前请仔细查看说明文档
2023-09-19 07:15:53 40.07MB python
1
朴素贝叶斯算法实战 email邮件数据集,SogouC新闻数据集 Email_NB.py垃圾邮件过滤实现(Python3实现) Naive_Bay.py 朴素贝叶斯算法实现(Python3实现) 样本比较小,成功率大概为90% import numpy as np from functools import reduce """ 函数说明:创建实验样本 Parameters: 无 Returns: postingList - 实验样本切分的词条 classVec - 类别标签向量 """ def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], #切分的词条 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so',
2023-04-06 12:03:35 196KB 贝叶斯
1
从Reddit WorldNews Channel网站上抓取的新闻数据(2008-06-08 到 2016-07-01)和对应时间的 Dow Jones Industrial Average (DJIA)股票指数数据。
2022-12-30 17:59:28 6.09MB 股市预测 Kaggle 市场情绪识别
1
中文word2vector词向量实现 说明:背后的原理暂时不做深究, 主要目的就是尽可能快的训练一个中文词向量模型。 环境 笔记本 i5-4210M CPU @ 2.60GHz × 4 , 8G RAM ubuntu16.04lts 独立系统, python 3.6.1 依赖:numpy, scipy, gensim, opencc, jieba 1.获取语料库 1.1维基百科 原始语料文件:zhwiki-latest-pages-articles.xml.bz2 1.6G 1.2 SogouCA 全网新闻数据(SogouCA) 原始语料文件:'news_tensite_xml.full.tar.gz' 746.3 M 2.语料库预处理 2.1 搜狗新闻语料处理 来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息 格式说明:
2022-11-30 15:36:28 345KB 附件源码 文章源码
1
该数据是一个假新闻标记数据,包括从244个网站上利用Chrome的BS Detector扩展工具识别出的假新闻数据
2022-11-24 20:26:20 20.42MB 假新闻识别 Kaggle
1
采用面向对象的思想,通过Redis实现对新闻数据的添加(普通添加和事务添加),通过id删除,通过id修改,分页,获取全部新闻数据
2022-11-24 09:21:34 6KB 面向对象 Redis python
1
机器学习中搜狗实验室发布的搜狗新闻数据
2022-11-02 01:58:32 366.47MB 数据集 搜狗新闻
1
Sogou News Dataset 是由 SogouCA 和 SogouCS 新闻语料库构成的数据集,其拥有 5 个类别共计 2,909,551 篇文章,每个类别均包含 90,000 个训练样本和 12,000 个测试样本,并且这些样本均以转换为拼音。
2022-07-13 16:05:16 366.5MB 数据集
THUCNews 数据集是根据新浪新闻 2005~2011 年间的历史数据筛选过滤生成,包含 74 万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐
2022-07-13 16:05:05 1.45GB 数据集
20news是一个英文新闻数据集,包含 20个 类别共 20000篇 新闻文档,可用以进行文档分类和自然语言处理等任务。
2022-06-19 17:23:56 77.05MB 文本分类 NLP 自然语言理解
1