本文章以 丁香 医生为例
主要以 科目分类来进行爬取,每个科目爬取的内容会存储到一个文本文档中,内容是问答式。
代码如下:
from bs4 import BeautifulSoup
import pandas as pd
import json
import requests
import time
import random
def get_static_url_content(url):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l
2021-10-06 15:35:24
26KB
医疗
数据
1