上传者: 47185175
|
上传时间: 2021-02-06 13:06:50
|
文件大小: 5KB
|
文件类型: PY
首先通过构造统一资源器即网址(URL),进行豆瓣电影Top250主页的网页获取,利用Beautiful Soup解析html获得数据,再利用正则表达式匹配并获取开发者工具调试页面中的电影各项信息,接着对其中的一些无用的字符进行处理,最后存入excel表格中(流程图如图)。对每部电影进行详细信息的获取也是类似的方法,主要不同是需要依据在主页获取的每部电影的详情链接来进入详情界面。