搜索【有声书】的结果

2018喜马拉雅有声书用户行为洞察报告.pdf

2021-10-19 17:01:37 1.8MB 行业报告

2020年中国有声书行业发展趋势研究报告.pdf

2021-09-24 19:02:19 6.86MB 行业报告

行业文档-设计装置-智能语音立体有声书.zip

2021-08-20 17:08:10 149KB 行业文档-设计装置-智能语音立体

有声书爬虫（- 根据有声书id多线程爬取全部音频）

### 有声书爬虫 [爬取思路](#a) [功能](#b) [使用方法](#c) [环境及技术栈](#d) 最近一直有用听书软件听一些小说，之前一直使用喜马拉雅听，但是这个软件里面有一些书是付费的，尤其是有个“有声的紫襟”这个主播，之前听他播的好多书都付费了。最近又再追《我的老千生涯》。没错，又收费了。所以就在网上找了找一些免费的听书平台，想要爬下来慢慢听。一开始找到静听网，后来经过一段时间的尝试发现，那个站长太厉害了，反爬做的相当完备，所以只好调转枪头去别的网站谋生路了。终于，功夫不费有心人，让我找到了一个相对好爬一些的[网站](https://www.ishuyin.com)。这个网站，我大致查了一下东西还是挺多的，所以未来有打算慢慢维护一下这个爬虫，添加搜索，数据库等功能，也有可能会写成一个接口，未来接入Android。 **爬取思路** 说下这个网站在我爬取的时候的一个小思路，给大家当个案例。经过我研究他们的js源码，发现他们使用的前端播放器是jplayer。而这个播放器在调用时必须提供音频地址。所以我就在他的源代码中找到了这一小段加密代码(这里就不copy全了，详细见其网页源代码)。 ```js $(document).ready(function(){ $("#jquery_jplayer_1").jPlayer({ ready: function (event) { var u="*104*116*116*112*58*47*47*109*112*51*46*97*105*107*101*117*46*99*111*109*47*50*51*55*51*54*47*50*46*109*112*51*"; var uArr=u.split("*"); var n = uArr.length; var x = ''; for(i=1;i**功能** - 根据有声书id多线程爬取全部音频 **使用方法** 需要使用到的库已经放在各个版本的requirements.txt文件中了，使用pip安装的可以使用指令`pip install -r requirements.txt`。如果国内安装第三方库比较慢，可以使用以下指令进行清华源加速`pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/` * 在[网站]上获取相应的有声书id，并将该id填写到代码第90行位置，两次运行download.py文件即可。 **环境** * Windows 10 * python 3.7 **技术栈** - requests - os - parsel - threading - mongodb - re

2021-06-22 10:03:32 11KB 有声书

2018-2019中国有声书市场专题研究报告.pdf

2021-02-03 00:04:53 5.85MB 有声书

个人信息

热门下载

最新下载

其他资源