目的
工作中遇到一个需求,通过需要通过网站查询船舶名称得到MMSI码,网站来自船讯网。
分析请求
根据以往爬虫的经验,打开F12,通过输入船舶名称,观察发送的请求,发现返回数据的网址
本身网址是一个get请求,直接用这个网址请求,也能返回数据,即网址本身并没有加密,这就简单许多,直接通过改变参数,就能实现数据的获取,马上开始动手
编写代码
代码中,通过request发送请求,为了不给服务器造成太大压力,每隔0.5秒发送一个请求,因为会出现查询不到的情况,通过exception判断,数据结果一是通过pandas中的to_excel存为excel文件,或者是直接通过pymysql入数据库,
1