天翼云应知+从业者+解决方案+高级解决方案
2024-04-20 18:28:08 745KB
1
知网 * 通过发送解析包形式抓取数据,相比于使用selenium等方式性能稍高一些。 * 可使用知网高级检索功能进行搜索,更高效检索文献。 * 可根据网络及知网反爬虫情况选择性开启详细信息抓取及下载caj文献功能。 * 利用excel表格快速查看所需文献摘要等信息,可根据excel提供下载链接选择性下载,防止下载过快导致知网反爬。 # 使用方法 ## 安装依赖 >在验证码处理部分使用了`tesserocr`,不过验证效果目前不是很好,所以默认开启手动识别验证码。 > >如果本地没有安装`tesseract`,可以先安装这个,再执行`pip install tesserocr`。或者将`CrackVerifyCode.py`文件第15、63、64行注释后再执行安装命令。 ```shell pip install -r requirements.txt ```
2024-04-10 11:33:29 19KB 爬虫
1
模板比较简介,适合做各种论坛,而且非常美观简洁! 文件里面有两个一个是xiuno程序一个是模板插件,模板是原版,无毒!!无后门。 搭建教程: 环境要求 PHP7.1+MySQL5.6 设置伪静态代码在下面,运行安装:域名/install/运行该目录进行数据库安装、连接、设置后台账户和密码 code location ~* \.(htm)$ { rewrite "^(.*)/(.+?).htm(.*?)$" $1/index.php?$2.htm$3 last; } 搭建就完成了,首次搭建先在后台把所有的插件卸载,再重新安装,安装完再清缓存
2024-04-09 20:18:40 5.86MB
1
这是一个可以生成 twitter.com,weibo.com,zhihu.com,douban.com,jianshu.com和其他网站的屏幕截图的网站,但是该网站的目的是告诉(不懂编程的人)普通的人们:不要相信那些容易在网上看到的“截图”! 网站本身的存在,告诉(浏览本网站的用户)人们一件事:所有网站的页面截图都可以非常容易地伪造,且足以乱真! 那么这个人以后看到其他任何截图时,他会想到本网站的存在,然后就会下意识地怀疑截图的真实性了!
2024-03-31 19:54:15 1.8MB 截图生成
1
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
2024-03-18 09:59:54 69KB 爬虫 python 数据收集
1
python爬虫 python爬虫_爬虫项目实战之知乎爬虫+断点续爬尝试
2024-03-15 15:46:33 20KB python 爬虫 爬虫项目
1
不可不知大2000个文化常识,包括了古今中外的文化常识,再也不用担心别人说:“没文化真可怕了”
2024-03-12 12:25:04 28.01MB 2000文化常识
1
News app necessary function / 新闻客户端必备功能
2024-03-01 17:20:20 121KB Android开发-其它控件
1
微机原理及应用(黄冰覃伟年黄知超著)课后答案
2024-02-27 13:36:55 7.76MB
1
目前,招投标制度在建设工程中广泛实施,它是一种富有竞争性的采购方式,评标是其中重要环节。文章针对评标模型的应用研究问题,构建基于熵权的未确知测度模型对投标单位进行综合评判,将老方法运用于新领域,为评标工作提供一种新方法。对模型中权重的计算方法进行改进,采用运用熵权与主观权重相结合的综合权重。结果表明,未确知测度评价模型在工程评标中的应用具有一定的可行性与实用性。
2024-01-15 15:15:25 603KB 建设工程 未确知测度模型
1