上传者: 27595745
|
上传时间: 2021-07-10 20:02:03
|
文件大小: 830KB
|
文件类型: DOC
第一章 概述 1
1.1 课题背景 1
1.2 网络爬虫的历史和分类 2
1.2.1 网络爬虫的历史 2
1.2.2 网络爬虫的分类 3
1.3 网络爬虫的发展趋势 4
第二章 相关技术背景 6
2.1 网络爬虫的定义 6
2.2 网页搜索策略介绍 6
2.2.1 广度优先搜索策略 6
2.2.2 最佳优先搜索策略 7
2.3 判断相关度算法 7
第三章 网络爬虫模型的分析和概要设计 9
3.1 网络爬虫的模型分析 9
3.2 网络爬虫的搜索策略 9
3.3 网络爬虫的主题相关度判断 10
3.4 网络爬虫的概要设计 12
第四章 网络爬虫模型的设计和实现 15
4.1 网络爬虫总体设计 15
4.2 网络爬虫具体设计 15
4.2.1 爬取网页 15
4.2.2 分析网页 16
4.2.3 判断相关度 17
4.2.4 保存网页信息 18
4.2.5 数据库设计和存储 18
4.2.6 多线程的实现 18
4.2.7 附加功能 19
4.2.8 整体流程 19
第五章 测试 21
第六章 总结和展望 24