### 有声书爬虫
[爬取思路](#a)
[功能](#b)
[使用方法](#c)
[环境及技术栈](#d)
最近一直有用听书软件听一些小说,之前一直使用喜马拉雅听,但是这个软件里面有一些书是付费的,尤其是有个“有声的紫襟”这个主播,之前听他播的好多书都付费了。最近又再追《我的老千生涯》。没错,又收费了。所以就在网上找了找一些免费的听书平台,想要爬下来慢慢听。一开始找到静听网,后来经过一段时间的尝试发现,那个站长太厉害了,反爬做的相当完备,所以只好调转枪头去别的网站谋生路了。终于,功夫不费有心人,让我找到了一个相对好爬一些的[网站](https://www.ishuyin.com)。这个网站,我大致查了一下东西还是挺多的,所以未来有打算慢慢维护一下这个爬虫,添加搜索,数据库等功能,也有可能会写成一个接口,未来接入Android。
**爬取思路**
说下这个网站在我爬取的时候的一个小思路,给大家当个案例。经过我研究他们的js源码,发现他们使用的前端播放器是jplayer。而这个播放器在调用时必须提供音频地址。所以我就在他的源代码中找到了这一小段加密代码(这里就不copy全了,详细见其网页源代码)。
```js
$(document).ready(function(){
$("#jquery_jplayer_1").jPlayer({
ready: function (event) {
var u="*104*116*116*112*58*47*47*109*112*51*46*97*105*107*101*117*46*99*111*109*47*50*51*55*51*54*47*50*46*109*112*51*";
var uArr=u.split("*");
var n = uArr.length;
var x = '';
for(i=1;i**功能**
- 根据有声书id多线程爬取全部音频
**使用方法**
需要使用到的库已经放在各个版本的requirements.txt文件中了,使用pip安装的可以使用指令`pip install -r requirements.txt`。如果国内安装第三方库比较慢,可以使用以下指令进行清华源加速`pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/`
* 在[网站]上获取相应的有声书id,并将该id填写到代码第90行位置,两次运行download.py文件即可。
**环境**
* Windows 10
* python 3.7
**技术栈**
- requests
- os
- parsel
- threading
- mongodb
- re
2021-06-22 10:03:32
11KB
有声书