#####使用python开发定向抓取器mini_spider.py,实现对种子链接的广度优先抓取,并把URL长相符合特定pattern的网页保存到磁盘上。 程序运行: python mini_spider.py -c spider.conf #####配置文件spider.conf: [spider] url_list_file: ./urls ; 种子文件路径 output_directory: ./output ; 抓取结果存储目录 max_depth: 1 ; 最大抓取深度(种子为0级) crawl_interval: 1 ; 抓取间隔. 单位: 秒 crawl_timeout: 1 ; 抓取超时. 单位: 秒 target_url: .*.(gif|png|jpg|bmp)$ ; 需要存储的目标网页URL pattern(正则表达式) thread_count: 8 ; 抓取线程
2021-08-19 10:57:56 14KB Python
1
项目需求调研的基本步骤和方法,保证项目调研过程有条不紊的进行
2021-04-13 15:02:00 88KB 需求开发 调研过程
1