蜘蛛 一。简介 通过spring boot建造的爬虫系统 二。技术选型 spring boot:构建项目框架,比较Swift,集成嵌入式tomcat,部署运行方便,零配置代码简洁 elasticSearch:作为nosql数据存储引擎 elastic-job:分布式作业调度系统,依赖zookeeper环境作为分布式协同 WebMagic:爬虫框架,有去重功能,支持Xpath,regex,css等选择器 三。运行方式 先启动zookeeper和elasticsearch ,并修改相应配置,然后按下面任意方式启动项目 方式一:执行命令mvn spring-boot:run立即启动 方式二:maven打成jar包后,将使用命令java -jar spider-1.0.0-SNAPSHOT.war &启动spider-1.0.0-SNAPSHOT.war 方式三:部署在tomcat中直接运行 四。
2021-12-09 10:09:20 277KB 系统开源
1
jianshu_spider 爬取简x专题、作者和文章摘要数据的爬虫 采集说明 主要收集的数据如下 专题:ID、名称、文章数、粉丝数 作者:ID、昵称、文字总数、粉丝数、喜欢数 文章:ID、标题、文字数、阅读数、喜欢数、评论数、赞赏数、售价、购买量及发布时间 运行环境 Python 3.6.5 运行方式 新建名为 jianshu 的数据库,执行 jianshu.sql 简历数据库表结构 运行 GetCategories.py,获取所有专题数据 运行 GetArticles.py,轮循已获取的专题数据,分别抓取对应专题下所有的文章数据 Issue 未加入多线程和协程等技术,导致目前采集效率非常低下。由于机制的原因,GetArticles.py 在采集过程中需要根据请求结果判断是否存在下一页数据,进而判断是否发起下一次请求
2021-12-06 20:58:14 11KB Python
1
leetcode题库 你需要修改的地方: dir.MakeDir.py中的path,表示你希望题目存储的地址 (可选)如果你是 会员用户可在promblem.Problem_Dtail中的ck里填入你的cookie以爬取力扣会员专享题。 你需要了解: 爬取的题目形式为html,包含html标签方便进行渲染。当然如果你觉得不妥可以自行修改(problem.Problem_detal中) 由于发现leetcode没有反爬,本项目并未使用代理请求。 项目介绍 main.py项目入口 dir.Makedir.py创建存放对应标签题目的所有文件夹 label.Label_Dic.py获取力扣题库中所有题目类型标签与对应的英文名(dic) label.Label_List.py获取所有标签名(List) problem.Problem_Url_Queue通过传参(标签英文名字)获取对应标签里的所有题目 problem.Problem_detal.py请求获取题目详情并以txt文件形式存储题目 leetcode爬取结果示例图
2021-11-30 09:25:02 2.11MB 系统开源
1
开源web知识图谱项目 爬取百度百科中文页面 解析三元组和网页内容 建立中文知识图谱 建立百科bot(重建中) 更新20200720 Windows上的部署参考,感谢LMY-nlp0701! 更新20191121 迁移代码到爬虫框架scrapy 优化了抽取部分代码 数据持久化迁移到mongodb 修复chatbot失败问题 开放neo4j后台界面,可以查看知识图谱成型效果 提示 如果是项目问题,请提问题。 如果涉及到不方便公开的,请发邮件。 ChatBot请访问 成型的百科知识图谱访问,用户名:neo4j,密码:123。效果如下: 环境 python 3.6 re:url正则匹配 scrapy:网页爬虫和网页解析 neo4j:知识图谱图数据库,安装可以参考 pip install neo4j-driver:neo4j python驱动 pip install pymongodb:mongodb的python支持 mongodb数据库:安装参考 代码执行: cd WEB_KG/baike scrapy crawl baike 执行界面(按ctrl + c停止): 知识图谱效果图
2021-11-29 15:47:30 1.45MB nlp spider neo4j wiki
1
robot spider STM32F103
2021-11-24 09:44:19 158KB pcb stm32 spider
1
spider-mm131 项目简介 一个精简的爬虫项目,爬取mm131图片 依赖 Maven 3.5.0 Java 8 项目说明
2021-11-22 20:50:39 10KB Java
1
py-elasticsearch-django EseachDjango文件夹是整个项目的web前引入采用Django框架,调用redis中间间,ES接口,前端为采用框架。 spider文件夹是用scrapy框架抓取几十个小说数据网站 ES接口语法案例: Rest接口添加 http的put方式 PUT jiechao { “settings”:{ “index”:{ “number_of_shards”:5, “number_of_replicase”:1 } } } Es的文档,索引的CURE操作(增删改查) 索引的初始化,索引类似关系数据库中的数据库
2021-11-22 13:52:46 1.09MB python elasticsearch django spider
1
有时需要根据项目的实际需求向spider传递参数以控制spider的行为,比如说,根据用户提交的url来控制spider爬取的网站。在这种情况下,可以使用两种方法向spider传递参数。 第一种方法,在命令行用crawl控制spider爬取的时候,加上-a选项,例如: scrapy crawl myspider -a category=electronics 然后在spider里这样写: import scrapy class MySpider(scrapy.Spider): name = 'myspider' def __init__(self, category=None,
2021-11-21 22:40:43 36KB c cra id
1
在本篇文章中给大家详细讲述了node字体压缩插件font-spider的用法的相关知识点内容,有需要的朋友参考下。
2021-11-19 15:29:35 38KB node font-spider
1