火车头数据信息采集器模块 智能文章采集工具助手 无需编写采集规则【99%以上的网页通用】
效果截图http://www.a5ymg.cn/1412.html
【HTML正文提取算法】提取99.99%以上的新闻类文章,包括博客,论坛等,无需编写采集规则
实测99%以上的网页,只要文章内容大于30个汉字(你可以自己设置,30个是最适合的) 并且出现句号,就可以提取出现,你可以填上一个框架内出现XX内容就为正文,当然这是不支持分页的.
理论上讲不用设置任何项目,只需提供源码即可!比火车头还方便,但速度可能慢了一丁点