上传者: 42116585
|
上传时间: 2021-12-03 22:03:43
|
文件大小: 59KB
|
文件类型: -
Goodreads刮板机
这些Python脚本可用于从Goodreads收集书评和元数据。
我们之所以开发这种Goodreads Scraper的动机是因为Goodreads API难以使用,并且不提供对评论全文的访问权限。 相反,Goodreads抓取工具使用网络抓取库和来收集数据。
我们使用此Goodreads Scraper收集了文章“ The Goodreads'Classics':对读者,亚马逊和众包文学批评的计算研究”的数据。 为了允许其他人重现(近似)本文中使用的数据,我们包括了一个文件,其中包含我们分析的144本经典书的144个Goodreads图书ID( goodreads_classics.txt )。 您可以使用这些ID如下所述通过Goodreads Scraper收集相应的评论和元数据。
注意:对Goodreads网站的更新可能会破坏此代码。 我们不保证刮板在