科技创新与生产力 2021年 9 月 总第 332 期 基于大数据的社交网络数据分析研究 1 系统需求分析 社交网络已经成为人们日常生活的重要组成部 分袁 是人们传播信息尧 交流互动的重要途径遥 用户 在社交网络上活动时袁 会通过文本信息尧 转发信 息尧 评论等行为产生大量数据信息袁 分析尧 挖掘这 些 大数据 具有 重 要 意 义 遥 目 前 在 世 界 范 围 内 Twi t t er袁 Facebook 是用户最为活跃的社交网络平 台袁 因此本研究针对这两个平台提出一种分析 其数据信息的系统遥 本系统的主要需求包括以下 3 个方面遥 一是数据采集与融合遥 大数据分析必须以数据 采集与融合为前提袁 可以通过种子 U R L 实时采集 或通过设定关键词实时采集袁 利用网络爬虫从 Twi t t er袁 Facebook 中采集数据信息遥 虽然社交网络 平台的功能结构不同袁 界面样式也千差万别袁 但是 其都包含文本信息尧 评论信息尧 转发信息尧 互动关 系信息等袁 系统可以从中抽取存在共性的数据进行 分析尧 融合袁 再以结构化的方式存储于数据库[ 1] 遥 二是信息检索需求分析遥 信息检索方式主要有 两种院 一种是新任务检索袁 即不保留之前的检索数 据袁 开启一个新的检索任务曰 另外一种是当前任务 检索袁 在开启一个新任务检索时袁 上次任务检索的 数据也保留起来袁 两次检索得到的数据求交集或并 集袁 最终实现多任务数据融合遥 两种检索方式都可 以实现以下功能院 关键词检索袁 即输入关键词即可 获取用户信息尧 关系信息等相关结果曰 排除关键词 检索袁 即输入需要排除的关键词后搜索结果中不包 含关键词相关的信息曰 人物检索袁 即输入人物相关 的关键词即可检索到相关信息曰 时间检索袁 可以实 现在特定时间范围内的时间检索曰 来源检索袁 可以 检索到信息的来源数据等遥 三是数据分析与可视化需求遥 数据分析模块主 要对社交网络数据进行挖掘尧 分析袁 其也是整个系 统的核心部分袁 主要功能包括内容分析尧 行为分 析尧 用户画像尧 发现热点话题等遥 其中内容分析中 的内容包括用户发布尧 回复及转发的相关信息袁 除 了显性的信息数据外袁 系统还可以对信息中隐含的 内容做出情感分析袁 将用户感兴趣的信息标记出 来曰 行为分析是指分析用户在社交网络平台上的所 有操作行为袁 将用户的操作过程完整地记录下来袁 将用户的行为轨迹完整地构建尧 预测出来曰 用户画 像是将用户信息进行标签化处理袁 用标签将用户的 行为尧 观点尧 属性等个性化特征描述出来袁 并对用 户个性化的观点尧 关注的话题进行总结尧 分析曰 发 现热点话题主要是对用户的帖子数据进行聚类分 析袁 发现用户关注的热点话题[ 2] 遥 2 系统功能设计 根据上述需求可知袁 该系统需要实现数据采 集尧 数据预处理与融合尧 信息检索尧 数据分析与可 视化功能袁 其中核心功能为数据分析袁 下文详细介 绍系统各功能设计开发过程遥 2. 1 数据采集 数据采集是整个系统完成数据分析的基础模 块袁 传统数据分析过程中多采用社交网络开放的应 用程序接口渊A ppl i cat i on Program m i ng Int erf ace袁A PI冤 获取数据袁 但却易受到限制遥 利用网络爬虫技术采 集数据袁 可以不受数据限制遥 网络爬虫可以根据特 定的规则实现网页内容程序或脚本的自动采集袁 通 晁绪耀 1袁王颖颖 2 摘 要院本文提出一种基于大数据的社交网络数据分析系统袁 对社交网络用户的行为数据进行分析袁 能够更有针对性地 研究用户的圈子尧 影响力袁 分析尧 挖掘社交网络数据还能够做市场调研尧 事件预测尧 舆情监控及产品推荐袁 因此设计一 个能够对多源异构社交网络数据分析的系统具有重要意义遥 关键词院大数据曰社交网络曰数据分析曰系统设计 中图分类号院TP393. 09曰TP311. 13 文献标志码院A D O I 院10. 3969/ j . i ssn. 1674-9146. 2021. 09. 023 渊 1. 郑州职业技术学院袁 河南 郑州 450007曰 2. 郑州升达经贸管理学院袁 河南 新郑 450001冤 收稿日期院2021原01原04曰修回日期院2021原01原17 作者简介院晁绪耀 渊 1990要冤 袁女袁河南驻马店人袁硕士袁助教袁主要从事大数据研究袁E- m ai l 院zhengzhou_0122@ 163. com 遥 文章编号院1674-9146渊圆园21冤09原园23原园3 创 新 思 维 I nnovati ve Thi nki ng 023 .com.cn. All Rights Reserved. SC I -T E C H IN N O V A T IO N & P
2024-03-22 15:03:06 307KB 文档资料
1
Excel ANALYS32.XLL 数据分析 工具包
2024-03-20 02:52:01 177KB Excel 数据分析
1
《触手可及的大数据分析工具:Tableau案例集》数据源--案例表格等
2024-03-19 14:48:17 41.57MB 数据分析
1
半导体 电子行业 行业分析 数据分析 数据报告 行业报告
1
数据分析用到的R语言统计学知识这部分课件中相关的数据,若是想深入学习R语言数据分析相关知识可以看本人的课件。
2024-03-18 16:44:21 45KB 数据分析 r语言
1
全文介绍了基于Python的网络爬虫从确定论题到最终实现效果的过程,具体内容入下: (1)第一章绪论主要说明本次设计项目的背景和目的,以及本次论文的结构。 (2)第二章相关技术介绍主要说明本次毕业设计项目涉及到的相关语言和对应的工具,包括Python, URL,Matplotlib第三方库等,以及相关的开发工具PycharmCE。 (3)第三章项目需求与设计主要说明本次设计项目需要抓取的内容和实现可视化的思路。 (4)第四章项目分析和实现,主要是将第三章设想变成现实的过程,结合实例说明操作。 (5)第五章项目测试主要说明了在实际编程过程中测试出错误时的解决方案。 (6)第六章分总结整个项目的收获与不足。 (7)最后是感谢和参考资料。
2024-03-14 15:28:12 1.57MB python 数据分析 毕业设计
1
b站全称哔哩哔哩,是中国最大的ACG动漫网站,也是中国目前事实上最大的线上宅文化社区。 其中动漫通常以一个季度播出,因而被称为番剧。涉及题材范围广,有奇幻,日常,战斗等。一部番剧上线后,在一段时间内追番人数将上升并维持在某个值内,因此追番人数能够反应观看人数。观看后观众可进行打分,范围在0到10之间,打分分数将作为评价一部番剧重要的依据。分析历年动漫数据,可以了解到b站ACG和动漫文化发展状况 本资源主要爬取总榜获得各个动漫粗略信息以及直达链接,再访问每个动漫对应链接获取详细信息。 资源中包含了爬虫代码、数据处理代码、数据分析代码,也包含了爬取数据集、可视化结果图,同时资源中也提供了一个对本项目进行简单介绍的readme文件,其中包含了对爬虫细节以及数据处理、数据分析、数据可视化的详细介绍。 本资源可以作为python爬虫入门的参考资源进行学习。
2024-03-07 09:47:47 3.58MB python 爬虫 数据分析 数据可视化
1
深度学习——机器学习的新浪潮.pdf
1
ChatGPT中文调教指南 商 业 它可以帮助你编写商业计划书、市场调研报告、营销策略、商业简报、销售信件等。它可 写 以用清晰、精炼的语言向你的潜在客户或投资者传达你的信息。 作 学 术 它可以帮助你进行学术论文、研究报告、学位论文等的编辑和校对工作,确保文本的正确 编 性、一致性和完整性,并提供改进建议。 辑 翻 它可以进行英语和中文之间的翻译工作,包括但不限于学术文献、商业文档、网站内容、 译 软件界面等。它可以保证翻译的准确性和专业性。 数 据 它可以帮助你进行各种类型的数据分析,包括统计分析、文本分析、数据可视化等。它可 分 以使用Python、R等工具来分析你的数据,并提供数据报告和可视化结果。 析
2024-02-28 20:14:01 669KB 毕业设计 数据分析
1