1) Java实现对Baidu新闻网站(http://news.baidu.com/)新闻列表信息的采集功能; 2) 将采集结果保存到MySQL数据库中。 1) 基于Java语言实现; 2) 新闻采集信息至少包含:新闻类别|新闻标题|采集时间等信息。扩展采集信息(可选)包括:新闻来源|发布时间信息; 3) 要求具有基于新闻标题的新闻查重功能(相同标题的新闻只保存一条)。
2022-05-08 15:45:40 389KB 爬虫 java jsoup
1
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 可以从包括字符串、URL 地址以及本地文件来加载 HTML 文档,并生成 Document 对象实例。 如:我们可以通过访问号段查询页面,获取到手机号段信息,并提取信息存储供自身的业务使用。 附件提供了详细的介绍,并通过http get请求方式抓取页面内容的java代码以及jsoup jar包。
1
一款使用Jsoup解析网页得JAVA爬虫,用来爬取美图,美女图片
2022-01-30 23:24:28 18KB JAVA Jsoup 爬虫 java爬虫
1
源码参考,欢迎下载
2022-01-03 09:05:28 5KB Java
仅供学习交流 爬取的资源:爬取某招聘网站的Java岗位的招聘信息,并保存到数据库。 Jsoup使用教程 代码示例 1.准备工作 引入依赖(pom.xml) junit junit 4.12 org.jsoup jsoup 1.11.2 org.apache.httpcomponents httpclient 4.5.6
2021-12-22 11:47:05 780KB soup 大数据 数据
1
支持网页的抓取功能包,添加在java里面
2021-12-07 17:51:59 287KB java jsoup
1
java爬虫入门示例,包含所有源码。 主要实现了爬取大众点评商户基本信息 新手入门或者参考可用
2021-11-21 21:35:58 9KB 爬虫 Java Jsoup
1
小说爬取+jframe窗口显示
2021-11-21 21:02:21 4KB java jsoup swing
1
jsoup编写的简单爬虫,实现P站每日热门大图爬取,目前支持png和jpg格式大图爬取,多图的只能爬取第一张
2021-10-01 11:48:44 1.39MB java jsoup
1
爬取中文医学图谱中的实体关系实体,用于知识图谱模型的构建
2021-09-22 09:30:04 8MB java jsoup fastjson 爬虫
1