基于JAVA和Eclipse开发环境的网络爬虫技术网络新闻分析软件程序源码+WORD毕业论文文档.
本系统结构如下:
(1)网络爬虫模块。
(2)中文分词模块。
(3)中3文相似度判定模块。
(4)数据结构化存储模块。
(5)数据可视化展示模块。
目 录
1 绪论 1
1.1 论文研究背景与意义 1
1.2 论文研究内容 2
2 系统需求分析 4
2.1 系统需求概述 4
2.2 系统需求分析 4
2.2.1 系统功能要求 4
2.2.2 系统IPO图 5
2.2 系统非功能性需求分析 5
3系统概要设计 7
3.1 设计约束 7
3.1.1需求约束 7
3.1.2设计策略 7
3.1.3 技术实现 8
3.3 模块结构 8
3.3.1 模块结构图 8
3.3.2 系统层次图 10
3.3.3 面向对象设计UML图 10
4 系统详细设计 13
4.1 系统模块设计 13
4.1.1 数据采集模块 13
4.1.2中文分词模块 18
4.1.3相似度匹配模块 22
4.1.4数据展示模块 25
4.2系统异常处理 29
4.2.1爬虫异常总体概况 29
4.2.2爬虫访问网页被拒绝 29
5 软件测试 32
5.1 白盒测试 32
5.1.1 爬虫系统测试结果 32
5.1.2 中文分词系统测试结果 33
5.1.3 中文文章相似度匹配系统测试结果 34
5.1.4 相似新闻趋势展示系统测试结果 36
5.2黑盒测试 37
5.2.1 爬虫系统测试结果 37
5.2.2 中文文章相似度匹配系统测试结果 37
5.2.3 相似新闻趋势展示系统测试结果 38
6 结 论 40
参考文献 42
致 谢 43
外文资料 44
中文翻译 48
1 绪论
1.1 论文研究背景与意义
时至2016年,互联网大爆炸催生出了一系列新生的网络产物,如微博、微信、网络新闻等,这些产物逐渐演化成了互联网时代的新兴媒体,以全新的方式承载了舆情与舆论。网络新闻是由于某一时刻发生的新闻,首先被上传到互联网上,然后经过广大网民的评论转发而广泛传播,其中包含了很多的重要而且有价值的信息,例如网民们的评价倾向,人们对待某一事物的看法等等。时至今日,互联网信息产业三足鼎立的局面显而易见,主要网络媒体新闻来源:新浪微博、微信公众号、网络媒体。
其中,最开始显现这一势头的是新浪微博,例如“郭美美事件”,经由个人发博文,然后通过@一些网络推手或者微博大V,使得相关信息传播如星星之火,借助于微博的实时性,很快会形成燎原之势。正是因为微博拥有这些特征,很多正面或者负面新闻不能通过传统媒体报道却能通过微博途径大肆传播。随着新浪微博的发展与推广,越来越多的人喜欢将自己的生活“曝光”在微博上,例如心情状态、将来的计划、晒一晒生活、晒一晒人生等等,无形中,微博对舆论分析的潜在价值不断上升。微博拉近了人们与新闻、与热点的距离,但是它也带来了不可忽视的负面影响。针对微博谣言恶性化、舆论暴力不断、侵权案件层见叠出等问题,完全可以变废为宝,提早掌握此类信息,提早整改。然而,近两年新浪微博对爬虫的预防愈来愈加严格,以微博api为首的一批爬虫已经跌倒,起因是新浪对相关微博SDK的api的封锁以及限制,故在本文中暂且抛弃了新浪微博这一网络新闻诞生地。
再者,就是微信公众号,俗话说“十年河东十年河西”,随着互联网传媒的进一步发展,更具有效率与价值的“新媒体”不断推出,在新浪微博如火如荼的情况下,微信公众号平台悄悄地来临了,其发展速度与推广力度甚至超过了新浪微博。微信的公众号与朋友圈功能深受广大媒体与网民们的欢迎,所以说,又有“新媒体”诞生了。横向对比微信公众号的效力,如果其微信订阅人数超过一万,那俨然就相当于一本杂志了;如果其微信订阅人数超过十万,那完全可以与地方性的报纸的影响力相媲美;但是一旦其微信订阅用户数量达到了百万级,其影响力绝对不会低于电视台,令人震惊。如今,微信订阅用户数量(即粉丝数量)达到百万级的公众号比比皆是,由大粉丝量的公众号推送的文章影响力难以想象,而且速度迅疾,与传统媒体相比,简直秒杀传统传媒行业。所以网络新闻的采集必然不可放过此领域,然而现实很残酷,微信公众号文章采集涉及跨平台,跨应用,以及相关权限token的获取,相对来说非常繁琐且自动化效率不高,故本文也放弃了此方式。
后者,也就是网络媒体了,各类门户网站借助自身的app可以迅速推送由各媒体记者收集到的一线新闻,比较热的网络媒体平台有:凤凰网新闻、新浪新闻、搜狐新闻、网易新闻等,其专业程度要远胜于社交媒体,如微博、微信等,而且网络媒体信息的商用价值也要大于另外两家。
1.2 论文研究内容
若要实时监测网络新闻的发展与变化,则必须使用相关工具,人工的速度太慢,这时候网络爬虫就应运而生了。爬