本文设计并实现了一个微博交通内容的热门话题发现及文本聚类系统,便于及时捕获 出微博中的交通话题,有助于更快速准确地对交通事件做出预判和决策。为了能在聚类中更 准确地对文本进行相似度计算,本文采用 word2vec 将词语表示成词向量,并提出了一种基 10 于稠密特征的 DC-word2vec 算法,通过引入高频网络词组成的高维词表对特征向量进行扩维 映射,使其变得稠密化且每一维度都有了具体的实际意义。通过对比其他几类算法的计算相 似度准确率,验证了 DC-word2vec 的效果最佳,并将其应用到 K-means 聚类中,有效提升了 话题聚类的精度。
1
84168条新浪微博数据集。 8万多条在2014-05-03至2014-05-11采集的关于12个主题的微博信息数据。包含63641个用户,文件为sql脚本,可直接导入数据库。 微博数据集 话题聚类
1
数据概述:本数据集为63641个用户的新浪微博数据集,包括以下内容: 63641个新浪微博用户信息 数据格式:用户uid,用户昵称,用户姓名,用户所在地,用户主页url,用户性别,用户粉丝数,用户关注数,用户微博数,用户收藏数,用户创建时间; 84168条在2014-05-03至2014-05-11采的关于12个主题的微博信息 数据格式:微博mid,发布时间,微博内容,微博来源,微博转发数,微博评论数,微博被赞数,发表用户uid,微博所属主题。 12个主题包括魅族,小米,火箭队,林书豪,恒大,韩剧,雾霾,房价,同桌的你,公务员,贪官,转基因。 1391718条用户好友关系 每条记录由suid和tuid两个字段组成,表示suid关注tuid,由于新浪微博的限制,每个用户最多只能获取到200个关注人的信息,故好友关系不是很全; 27759条微博转发关系 每条记录由smid和tmid两个字段组成,表示smid微博转发tmid微博。
2019-12-21 19:27:15 131.78MB 微博数据集 话题聚类
1
8万多条在2014-05-03至2014-05-11采集的关于12个主题的微博信息数据。包含63641个用户,文件为sql脚本,可直接导入数据库。
2019-12-21 19:27:15 16.06MB 微博数据集 话题聚类
1