2018喜马拉雅有声书用户行为洞察报告.pdf
2021-10-19 17:01:37 1.8MB 行业报告
2020年中国有声书行业发展趋势研究报告.pdf
2021-09-24 19:02:19 6.86MB 行业报告
行业文档-设计装置-智能语音立体有声书.zip
### 有声书爬虫 ​ [爬取思路](#a) ​ [功能](#b) ​ [使用方法](#c) ​ [环境及技术栈](#d) ​ 最近一直有用听书软件听一些小说,之前一直使用喜马拉雅听,但是这个软件里面有一些书是付费的,尤其是有个“有声的紫襟”这个主播,之前听他播的好多书都付费了。最近又再追《我的老千生涯》。没错,又收费了。所以就在网上找了找一些免费的听书平台,想要爬下来慢慢听。一开始找到静听网,后来经过一段时间的尝试发现,那个站长太厉害了,反爬做的相当完备,所以只好调转枪头去别的网站谋生路了。终于,功夫不费有心人,让我找到了一个相对好爬一些的[网站](https://www.ishuyin.com)。这个网站,我大致查了一下东西还是挺多的,所以未来有打算慢慢维护一下这个爬虫,添加搜索,数据库等功能,也有可能会写成一个接口,未来接入Android。 **爬取思路** ​ 说下这个网站在我爬取的时候的一个小思路,给大家当个案例。经过我研究他们的js源码,发现他们使用的前端播放器是jplayer。而这个播放器在调用时必须提供音频地址。所以我就在他的源代码中找到了这一小段加密代码(这里就不copy全了,详细见其网页源代码)。 ```js $(document).ready(function(){ $("#jquery_jplayer_1").jPlayer({ ready: function (event) { var u="*104*116*116*112*58*47*47*109*112*51*46*97*105*107*101*117*46*99*111*109*47*50*51*55*51*54*47*50*46*109*112*51*"; var uArr=u.split("*"); var n = uArr.length; var x = ''; for(i=1;i**功能** - 根据有声书id多线程爬取全部音频 **使用方法** ​ 需要使用到的库已经放在各个版本的requirements.txt文件中了,使用pip安装的可以使用指令`pip install -r requirements.txt`。如果国内安装第三方库比较慢,可以使用以下指令进行清华源加速`pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/` * 在[网站]上获取相应的有声书id,并将该id填写到代码第90行位置,两次运行download.py文件即可。 **环境** * Windows 10 * python 3.7 **技术栈** - requests - os - parsel - threading - mongodb - re
2021-06-22 10:03:32 11KB 有声书
2018-2019中国有声书市场专题研究报告.pdf
2021-02-03 00:04:53 5.85MB 有声书