学校实训JSP项目-[搜索链接]Java网络爬虫(蜘蛛)源码.zip
2021-09-05 18:09:36 3.95MB 源码 HTML JSP 学校毕业实训
主要介绍了JAVA使用爬虫抓取网站网页内容的方法,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧。
1
网络数据采集技术——Java
2021-08-11 15:33:32 118B java 爬虫 数据采集
1
课程内容: ┃ ┣━网络爬虫JAVA ┃ ┃ ┃ ┃ ┣━开源系统-教学视频 ┃ ┃ ┃ ┃ ┃ ┣━微博爬虫-博主、博文、关注列表抓取更新.zip ┃ ┃ ┃ ┃ ┃ ┣━微博爬虫_导入与布署视频.zip ┃ ┃ ┃ ┃ ┃ ┣━漫爬型网络爬虫_导入与布署说明.zip ┃ ┃ ┃ ┃ ┣━新浪微博-模拟登陆-SinaWeiBoCookie.zip ┃ ┃ ┃ ┃ ┣━模拟登陆-专题 ┃ ┃ ┃ ┃ ┃ ┣━天涯论坛.zip ┃ ┃ ┃ ┃ ┣━漫爬型网络爬虫#.zip ┃ ┃ ┃ ┃ ┣━网络爬虫-专题 ┃ ┃ ┃ ┃ ┃ ┣━01网络爬虫_爬虫综述.zip ┃ ┃ ┃ ┃ ┃ ┣━02网络爬虫_抓包分析.zip ┃ ┃ ┃ ┃ ┃ ┣━03网络爬虫_demo_1.zip ┃ ┃ ┃ ┃ ┃ ┣━04网络爬虫_demo_2.zip ┃ ┃ ┃ ┃ ┃ ┣━05网络爬虫_demo_2_续.zip ┃ ┃ ┃ ┃ ┃ ┣━06网络爬虫_demo_3.zip ┃ ┃ ┃ ┃ ┃ ┣━07网络爬虫_html解析.zip ┃ ┃ ┃ ┃ ┣━腾讯微博-模拟登陆-QQWeiBoCookie.zip
2021-07-23 10:29:32 60B 爬虫 java
1
第一章  概述 1     1.1 课题背景 1    1.2 网络爬虫的历史和分类 2    1.2.1 网络爬虫的历史 2    1.2.2 网络爬虫的分类 3    1.3 网络爬虫的发展趋势 4 第二章 相关技术背景 6 2.1 网络爬虫的定义 6 2.2 网页搜索策略介绍 6 2.2.1 广度优先搜索策略 6 2.2.2 最佳优先搜索策略 7 2.3 判断相关度算法 7 第三章 网络爬虫模型的分析和概要设计 9 3.1 网络爬虫的模型分析 9 3.2 网络爬虫的搜索策略 9 3.3 网络爬虫的主题相关度判断 10 3.4 网络爬虫的概要设计 12 第四章 网络爬虫模型的设计和实现 15 4.1 网络爬虫总体设计 15 4.2 网络爬虫具体设计 15 4.2.1 爬取网页 15 4.2.2 分析网页 16 4.2.3 判断相关度 17 4.2.4 保存网页信息 18 4.2.5 数据库设计和存储 18 4.2.6 多线程的实现 18 4.2.7 附加功能 19 4.2.8 整体流程 19 第五章  测试 21 第六章  总结和展望 24
2021-07-10 20:02:03 830KB java 网络爬虫 毕业设计 设计报告
自己动手写网络爬虫(修订版) 源代码,网盘下载url:链接:https://pan.baidu.com/s/1dEP3WE9 密码:*****
2021-06-18 22:22:24 99B java网络爬虫
1
Java网络爬虫 包含简单 Java 网络爬虫代码的存储库 内容: crawler.java,一个简单的类,它实现了一个基于 Java 的网络爬虫。 一个爬虫实例可以用 2 个字符串来表示要爬取的 URL 和一个用户代理。 callCrawler.java,包含“main”方法的类,该方法创建 crawler.java 的实例并调用相关方法以帮助调试。 crawlerTest.java,JUnit 测试类。
2021-05-31 19:03:36 588KB Java
1
下面小编就为大家带来一篇hadoop中实现java网络爬虫(示例讲解)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
2021-05-30 16:31:39 366KB java实现网络爬虫
1
设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页; (4)能够对crawler 的一些基本参数进行设置,包括:搜集深度(depth)、文件类型、 文件大小等。 (5)对搜集的过程生成日志文本文件,格式为三元组: 时间戳(timestamp) Action URL Action 可表示当前的处理动作,例如processing(处理),parsing(解析),downloading (下载)等。对Action 的定义,请在实验报告中详细说明。 (6)遵循礼貌规则。必须分析robots.txt 文件和meta tag 有无限制;一个线程抓完一个 网页后要适当停顿(sleep);最多允许与被搜集站点同时建立2 个连接(本地做网页解析的 线程数则不限)。 (7)采用多线程并行编程技术,提高搜集速度。
2021-05-22 20:02:09 286KB java网络爬虫
1
网络爬虫算法 java
2021-05-09 09:18:43 1.3MB java 网络爬虫
1