描述:由C#编写的多线程异步抓取网页的网络爬虫控制台程序 功能:目前只能提取网络链接,所用的两个记录文件并不需要很大。网页文本、图片、视频和html代码暂时不能抓取,请见谅。 但需要注意,网页的数目是非常庞大的,如下代码理论上大概可以把整个互联网网页链接都抓下来。 但事实上,由于处理器功能和网络条件(主要是网速)限制,一般的家用电脑最多能胜任12个线程左右的抓取任务,抓取速度有限。可以抓取,但需要时间和耐心。 当然,这个程序把所有链接抓下来是可能的,因为链接占系统空间并不多,而且有记录文件的帮助,已抓取网页的数量可以堆积下去, 甚至可以把所有的互联网网络链接都存取下来,当然,最好是分批次。建议设置maxNum为500-1000左右,慢慢累积下去。 另外因为是控制台程序,有时候显示字符过多会系统会暂停显示,这时候只要点击控制台按下回车键就可以了。程序假死的时候,可以按回车键(Enter)试试。 /// 使用本程序,请确保已创建相应的记录文件,出于简化代码的考虑,本程序做的并不健壮,请见谅。 /// 默认的文件创建在E盘根目录“已抓取网址.txt”和“待抓取网址.txt”这两个文本文件中,使用者需要自行创建这两个文件,注意后缀名不要搞错。 这两个文件里面的链接基本都是有效链接,可以单独处理使用。 本爬虫程序的速度如下: 10线程最快大概500个链接每分钟 6-8线程最快大概400-500个链接每分钟 2-4线程最快大概200-400个链接每分钟 单线程最快大概70-100个链接每分钟 之所以用多线程异步抓取完全是出于效率考虑,本程序多线程同步并不能带来速度的提升,只要抓取的网页不要太多重复和冗余就可以,异步并不意味着错误。
2021-11-30 17:20:28 60KB C# 多线程 网络爬虫 网页抓取
1
几个简单的c#控制台实例,适合初学者理解语法.VS2005
1
本模糊控制器采用双输入单输出的形式,输入变量为误差e和误差的变化率de,输出为控制量u;e,de,u的量化论域范围为[-3,-2,-1,0,1,2,3],划分的模糊子集为:[NB,NM,NS,ZO,PS,PM,PB].基本论域的范围选取需要根据实际情况来确定上限值emax,demax,umax. 量化因子:Ke=3/emax, Kde=3/demax, 输出缩放因子:Ku=umax/3 为了减少计算量,e,de,u的隶属度函数都选用三角形隶属度函数。
2021-11-05 16:55:07 17.89MB fuzzy vs2010 控制台程序
1
.net控制台程序+Windows服务 通过控制台程序,创建成windows服务 /* 1. 程序写完后,生成 2. 点击debug文件中的install.bat安装服务 3. 去系统服务中 找到服务启动它 */
1
简单可运行学生信息管理系统(c#控制台程序)很简单但是交作业绝对可以
2021-10-26 23:42:03 4KB c# 控制台程序
1
用穷举法来解的一个源程序。C#写的。控制台程序
2021-10-26 10:43:57 3KB TSP 穷举 旅行商 C#
1
利用 C# 控制台程序 实现计算器功能.功能比较全。。
2021-10-08 13:59:53 18KB C# 控制台程序
1
VC6.0下实现图像的基本操作,包括读取图像、基本变换、直方图处理等一些工作,帮助理解windows下bmp图像的基本结构和操作。
2021-09-22 09:18:38 2.6MB 图像处理 C++ 控制台程序 BMP
1
不错的熟悉C#控制台语句,很适合新手。能让他们熟悉软件大致的开发流程。能让学习者更了解面向对象程序理解
1
C#写的控制台UDP通信程序,有客户端和服务端
2021-09-18 22:02:12 114KB C# UDP通信
1