运行 create_spider.sh 来制作蜘蛛。 使 spider1.py 中的变量 max_depth 等于您要抓取的页面数。 然后,要运行蜘蛛,请进入创建的目录 create_spider.sh 并在终端中输入 scrapy crawl fanficnet -o items.csv -t csv。 将生成的 csv 文件放在与analyzecsv.py 相同的目录中,并运行analyzecsv.py 强烈考虑使用我已经下载的数据而不是重新运行spider,以便为fanfiction.net 节省额外的流量。 您可以在此处下载该数据。
依赖项:Scrapy、matplotlib、scipy、dateutil 和 numpy
我认为我导入的其余内容是本机库。 这是我导入的所有其他内容的列表:unicodedata、re、time、csv、re、operator、math
2021-07-02 15:04:01
8KB
Python
1