上传者: jkl012789
|
上传时间: 2022-05-16 20:32:46
|
文件大小: 1.19MB
|
文件类型: ZIP
java根据自定义json格式规则抓取新浪新闻、百度新闻、微博动态内容的网络爬虫源码
例子中的源码功能:
导入Hbase的jar包即可直接返回Put对象数据、可以返回map对象数据、支持自定义json格式抓取指定网页的内容、抓取指定时间段内容、抓取指定关键内容、对新闻进行正负面分类、对时间的格式进行了统一的维护、可抓取指定(页数/条数)内容、原始json规则可抓取信息:标题、url链接、内容、时间、来源