最近几年,以微博为首的社交网络迅猛发展,这些平台上包含了网民对于时事热点的观点,对生活和人际关系的看法等大量有价值的信息和资源。由于微博数据非常庞大又难以获取等困难,如何有效地对社交网络进行数据挖掘,是近两年数据挖掘研究的重点和热点。本工作设计和实现了一个基于Hadoop 的并行社交网络挖掘系统,包含了分布式数据库,并行爬虫,并行数据处理和并行数据挖掘算法集,可以有效地获取和分析挖掘海量的社交网络数据,为社团分析,用户行为分析,用户分类,微博分类等工作提供支持。
2022-05-22 02:01:33 2.32MB 工程技术 论文
1
一、 实验教学目的和要求: 实验目的: 本课程实验旨在加深学生对于网络大数据挖掘的理解,培养学生分析、设计、实现基于Python语言的网络数据挖掘算法,掌握科学的实验方法,为以后其他专业课的学习打下坚实的基础。该实验内容采用循序渐进的方式,从Python语言的基本语法入手,在加深学生对于Python语言熟悉的基础上突出数据挖掘应用。实验提供功能要求,学生自己确定设计方案和需要思考如何设计最优化的算法,并完成结果记录和分析,充分发挥学生的创造性和主动性。 实验要求: 了解并掌握Python语言的基本语法、能够使用Python读取或写入数据表、获取并分析网络文本数据、获取并处理图像数据等。 二、 Python开发环境简介: 本课程实验使用的Python开发环境为Python IDLE,其用户界面图见图1所示。IDLE是开发python程序的基本集成开发环境,具备基本的IDE的功能,是Python教学的不错的选择。当安装好python以后,IDLE就自动安装好了,不需要另外去找。同时,使用Eclipse这个强大的框架时IDLE也可以非常方便的调试Python程序。其基本功能包括语法加亮、段落缩进、基本文本编辑、TABLE键控制、调试程序。 打开 Idle 后出现一个增强的交互命令行解释器窗口(具有比基本的交互命令提示符更好的剪切、粘贴、回行等功能)。除此之外,还有一个针对 Python 的编辑器(无代码合并,但有语法标签高亮和代码自动完成功能)、类浏览器和调试器。菜单为 TK “剥离”式,也就是点击顶部任意下拉菜单的虚线将会将该菜单提升到它自己的永久窗口中去。特别是 "Edit" 菜单,将其“靠”在桌面一角非常实用。Idle 的调试器提供断点、步进和变量监视功能。
2021-08-08 17:09:28 299KB Python 数据挖掘 网络挖掘 数据分析
异构信息网络挖掘原理与方法,不带书签,清晰版。
2020-03-23 03:14:50 91.88MB 异构信息网络
1