上传者: 38698311
|
上传时间: 2021-04-11 20:39:57
|
文件大小: 221KB
|
文件类型: PDF
爬取标题-链接-时间
很久前就尝试了爬虫学习,但是一直没有怎么去实际工作中使用过,这段时间工作上的事也稍微少了点,就来写写爬虫的东西**
本次使用的模块:
BeautifulSoup4,requests
可以看到,新闻的链接为:
https://news.sina.com.cn/world/
而且使用的是get方法
在源码中观察到,新闻有一个class属性为’news-item’
所以,可以通过该属性找到下面我们所需要的
import requests
from bs4 import BeautifulSoup
res = requests.get('https://news.sina.c