反爬技术方案的研究与落地
一个在线教育的平台,译文的数据很重要吧,但被别人通过爬虫技术全部爬走了,那结果就是“凉凉”。再比说有个独立开发者想抄袭你的产品,通过抓包和爬虫手段将你核心的数据拿走,然后短期内做个网站和App,短期内成为你的劲敌。成果:segmentfault上发表过,获胜赞148。
大前端时代安全性如何做
如果想了解大前端(Web,App,接口)区域的安全性,可以查看我的介绍。
爬虫工程师的爬虫手段
从渲染好的html页面直接找到感兴趣的副本,然后获取对应的文本
去分析对应的接口数据,更加方便,精确地获取数据
制定出网站端反爬技术方案
本人从这2个角度(网页所见非所得,查接口请求没用)出发,制定了下面的反爬方案。
使用HTTPS协议
单位暂停限制掉请求次数过多,则封锁该账号
前端技术限制(接下来是核心技术)
例如需要正确显示的数据为“ 19950220”
先按照自己的需求利用相应的规则(数字乱序映射,正常正常的0对应还是0,但是乱序就是0 <-> 1,1 <-> 9,3 <-> 8,...)制作自定义字体(ttf)
根据上面的乱序映射规律,求得到需要返回的数据1995022
1