财经新闻爬虫
这是一个建立在 Scrapy 框架之上的通用新闻爬虫。
此实现基于具有不同规则的相同蜘蛛。 所以为了实现这一点,我制作了spider.py,它从json文件中获取规则。
实现这一点的另一种方法是为不同的站点设置多个蜘蛛并同时运行这些蜘蛛。
我不知道哪个更好,但我想从每个站点获取相同的信息,所以我遵循了爬行的第一个原则。
安装
尝试创建一个单独的虚拟环境
$ pip install virtualenv # look for documentation on setting up virtual environment
$ pip install virtualenvwrapper # setup the PATH variable
# open ~/.bashrc or ~/.profile or ~/.bash_profile and a