有声书爬虫(- 根据有声书id多线程爬取全部音频)

上传者: 44510615 | 上传时间: 2021-06-22 10:03:32 | 文件大小: 11KB | 文件类型: ZIP
### 有声书爬虫 ​ [爬取思路](#a) ​ [功能](#b) ​ [使用方法](#c) ​ [环境及技术栈](#d) ​ 最近一直有用听书软件听一些小说,之前一直使用喜马拉雅听,但是这个软件里面有一些书是付费的,尤其是有个“有声的紫襟”这个主播,之前听他播的好多书都付费了。最近又再追《我的老千生涯》。没错,又收费了。所以就在网上找了找一些免费的听书平台,想要爬下来慢慢听。一开始找到静听网,后来经过一段时间的尝试发现,那个站长太厉害了,反爬做的相当完备,所以只好调转枪头去别的网站谋生路了。终于,功夫不费有心人,让我找到了一个相对好爬一些的[网站](https://www.ishuyin.com)。这个网站,我大致查了一下东西还是挺多的,所以未来有打算慢慢维护一下这个爬虫,添加搜索,数据库等功能,也有可能会写成一个接口,未来接入Android。 **爬取思路** ​ 说下这个网站在我爬取的时候的一个小思路,给大家当个案例。经过我研究他们的js源码,发现他们使用的前端播放器是jplayer。而这个播放器在调用时必须提供音频地址。所以我就在他的源代码中找到了这一小段加密代码(这里就不copy全了,详细见其网页源代码)。 ```js $(document).ready(function(){ $("#jquery_jplayer_1").jPlayer({ ready: function (event) { var u="*104*116*116*112*58*47*47*109*112*51*46*97*105*107*101*117*46*99*111*109*47*50*51*55*51*54*47*50*46*109*112*51*"; var uArr=u.split("*"); var n = uArr.length; var x = ''; for(i=1;i**功能** - 根据有声书id多线程爬取全部音频 **使用方法** ​ 需要使用到的库已经放在各个版本的requirements.txt文件中了,使用pip安装的可以使用指令`pip install -r requirements.txt`。如果国内安装第三方库比较慢,可以使用以下指令进行清华源加速`pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/` * 在[网站]上获取相应的有声书id,并将该id填写到代码第90行位置,两次运行download.py文件即可。 **环境** * Windows 10 * python 3.7 **技术栈** - requests - os - parsel - threading - mongodb - re

文件下载

资源详情

[{"title":"( 11 个子文件 11KB ) 有声书爬虫(- 根据有声书id多线程爬取全部音频)","children":[{"title":"audioBook","children":[{"title":"__init__.py <span style='color:#111;'> 0B </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 3.14KB </span>","children":null,"spread":false},{"title":".idea","children":[{"title":"misc.xml <span style='color:#111;'> 300B </span>","children":null,"spread":false},{"title":"workspace.xml <span style='color:#111;'> 8.29KB </span>","children":null,"spread":false},{"title":"vcs.xml <span style='color:#111;'> 183B </span>","children":null,"spread":false},{"title":"inspectionProfiles","children":[{"title":"profiles_settings.xml <span style='color:#111;'> 174B </span>","children":null,"spread":false}],"spread":true},{"title":"audioBook.iml <span style='color:#111;'> 284B </span>","children":null,"spread":false},{"title":"modules.xml <span style='color:#111;'> 270B </span>","children":null,"spread":false}],"spread":true},{"title":"__pycache__","children":[{"title":"ThreadPool.cpython-37.pyc <span style='color:#111;'> 2.85KB </span>","children":null,"spread":false}],"spread":true},{"title":"ThreadPool.py <span style='color:#111;'> 4.27KB </span>","children":null,"spread":false},{"title":"downloader.py <span style='color:#111;'> 3.05KB </span>","children":null,"spread":false}],"spread":true}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明