python爬虫爬取百度百科页面

上传者: u014534808 | 上传时间: 2023-02-25 13:06:49 | 文件大小: 10KB | 文件类型: ZIP
> ### python爬虫爬取百度百科页面 > 简单爬虫框架: > 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 目录结构: ![](http://images2015.cnblogs.com/blog/763083/201601/763083-20160106142320340-420909875.png) > 注:mac osx下用alt+enter添加相应方法 - (爬虫调度器)spider_main.py - (url管理器)url_manager.py - (下载器)html_downloader.py - (解析器)html_parser.py - (数据输出)html_outputer.py > 运行程序spider_main.py可进行爬取页面,最终文件输出为output.html,里面包含词条和词条解释,爬取完毕。 output.html: ![](http://images2015.cnblogs.com/blog/763083/201

文件下载

资源详情

[{"title":"( 13 个子文件 10KB ) python爬虫爬取百度百科页面","children":[{"title":"baike_spider-master","children":[{"title":"__init__.py <span style='color:#111;'> 14B </span>","children":null,"spread":false},{"title":"url_manager.py <span style='color:#111;'> 870B </span>","children":null,"spread":false},{"title":"html_parser.pyc <span style='color:#111;'> 1.73KB </span>","children":null,"spread":false},{"title":"html_outputer.pyc <span style='color:#111;'> 1.51KB </span>","children":null,"spread":false},{"title":"html_parser.py <span style='color:#111;'> 1.26KB </span>","children":null,"spread":false},{"title":"html_downloader.py <span style='color:#111;'> 259B </span>","children":null,"spread":false},{"title":"url_manager.pyc <span style='color:#111;'> 1.53KB </span>","children":null,"spread":false},{"title":"html_downloader.pyc <span style='color:#111;'> 720B </span>","children":null,"spread":false},{"title":"output.html <span style='color:#111;'> 4.85KB </span>","children":null,"spread":false},{"title":"__init__.pyc <span style='color:#111;'> 145B </span>","children":null,"spread":false},{"title":"spider_main.py <span style='color:#111;'> 1.56KB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 762B </span>","children":null,"spread":false},{"title":"html_outputer.py <span style='color:#111;'> 931B </span>","children":null,"spread":false}],"spread":false}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明