描述:由C#编写的多线程异步抓取网页的网络爬虫控制台程序 功能:目前只能提取网络链接,所用的两个记录文件并不需要很大。网页文本、图片、视频和html代码暂时不能抓取,请见谅。 但需要注意,网页的数目是非常庞大的,如下代码理论上大概可以把整个互联网网页链接都抓下来。 但事实上,由于处理器功能和网络条件(主要是网速)限制,一般的家用电脑最多能胜任12个线程左右的抓取任务,抓取速度有限。可以抓取,但需要时间和耐心。 当然,这个程序把所有链接抓下来是可能的,因为链接占系统空间并不多,而且有记录文件的帮助,已抓取网页的数量可以堆积下去, 甚至可以把所有的互联网网络链接都存取下来,当然,最好是分批次。建议设置maxNum为500-1000左右,慢慢累积下去。 另外因为是控制台程序,有时候显示字符过多会系统会暂停显示,这时候只要点击控制台按下回车键就可以了。程序假死的时候,可以按回车键(Enter)试试。 /// 使用本程序,请确保已创建相应的记录文件,出于简化代码的考虑,本程序做的并不健壮,请见谅。 /// 默认的文件创建在E盘根目录“已抓取网址.txt”和“待抓取网址.txt”这两个文本文件中,使用者需要自行创建这两个文件,注意后缀名不要搞错。 这两个文件里面的链接基本都是有效链接,可以单独处理使用。 本爬虫程序的速度如下: 10线程最快大概500个链接每分钟 6-8线程最快大概400-500个链接每分钟 2-4线程最快大概200-400个链接每分钟 单线程最快大概70-100个链接每分钟 之所以用多线程异步抓取完全是出于效率考虑,本程序多线程同步并不能带来速度的提升,只要抓取的网页不要太多重复和冗余就可以,异步并不意味着错误。
2021-11-30 17:20:28 60KB C# 多线程 网络爬虫 网页抓取
1
基于UDP的控制台聊天程序.rar基于UDP的控制台聊天程序.rar基于UDP的控制台聊天程序.rar
2021-11-30 15:37:51 49KB 聊天程序
1
控制台订单系统源码
2021-11-30 12:02:36 1.91MB java
1
基于Java Socket聊天室的控制台版本聊天源码
2021-11-29 23:55:51 18KB socket java 私聊 群聊
1
看网上一篇文章写的,很简单,可以参考借鉴,听说这个要写50字节!
2021-11-29 20:41:34 2KB 个人原创
1
后方交会的程序,可以从文本文件中读取数据,能进行精度评定。
2021-11-28 18:01:17 1.19MB 后方交会 C++ 控制台 摄影测量
1
从控制台得到输入的字符,并且可以输出到指定的文件中去。
2021-11-26 10:30:09 615B java
1
rocketmq-web 项目说明:rocketmq web版控制台 namesrv设置方法: 一下几种方法按照优先级从高到低排序 启动时设置 jvm 的启动参数 rocketmq.namesrv.addr 设置系统的环境变量 NAMESRV_ADDR 设置项目中 src/main/resources/app.properties 中 rocketmq.namesrv.addr属性
2021-11-25 20:09:40 302KB Java
1
case -1: s = "计算机赢"; break; case 1: s = "玩家赢"; break; case 2: s = "计算机赢"; break; case -2: s = "玩家赢"; break; case 0: s = "平局"; break;
2021-11-25 16:42:23 33KB C# 控制台
1
介绍 此插件可让您在构建版本中查看游戏中的调试消息。 此外,它还允许您执行命令(使用Lua解析器),并带有内置的错误报告工具。 要求 Unity 5.6或更高版本。 如果决定使用Lua命令解析器,发布的平台必须由支持。 安装 克隆存储库或将其下载到您的计算机。 该存储库包含一个Unity项目。 在Unity中打开项目。 将Assets文件夹中的所有内容导出为.unitypackage文件。 如果您不需要Lua命令解析器,请在导出窗口中取消选中以下文件夹: Console / Addons / LuaCommandParser和Plugins 。 将.unitypackage文件导入到您的项目中。 注意: Examples文件夹是可选的,导出Unity软件包时可以将其丢弃。 如何 将控制台添加到游戏中 只需将预制件拖放到您的第一个场景中,然后在检查器中启用“加载时不销毁”即可。 预制
2021-11-24 21:19:43 932KB c-sharp console unity unity3d
1