亲测很好用,在原来软件的基础上修复几处bug,修复了网站编码为utf-8时显示乱码的bug。
软件适合网站工作人员编写文章的时候采集其它网站文章内容时使用。
软件简介:
1、软件属于源码(HTML)抓取版
2、只支持二级目录的采集,即 列表页—> 文章页 。(绝大部分的网站文章都能在2级目录内获取到)
3、手动设置翻页(想采几页就采几页)
4、支持正文内容过滤(这个你可以自行修改使用)
5、自动生成TXT文件到桌面文件夹
6、自动判断UTF8返回文本
7、支持每个节点规则的测试返回
软件的话,基本上就是上面说的这样。已经可以很美丽的使用了,我也采集了N个网站,N多篇文章了。
新手们可以,拿去研究研究,软件特别的地方也没啥,说白了就是1个逻辑思路,如何去实现功能而已。
原理其实也很简单,就是循环取中间(从外往内,一层一层提取),再加点判断就完成了。
正要说特别的地方的话,就是标题的处理了,因为某些网页字符是写入不到本地的。嗯~~有兴趣的可以看看。
当然,二次开发的也是可以的,加入伪原创,加入分页采集,加入多级目录采集,加入HTML发布文本,加入数据库入库等等。
做成商业版的也没啥问题,只要你有时间,有精力去弄。
使用的时候按照软件上面提示的操作,从第1步到第6步一次测试通过就可以开始采集了,速度挺快的。
文章采集软件下载:链接: https://pan.baidu.com/s/1rXH8oQ18M0PZ2qBeJVFCWw 提取码: r3dw
这个正好需要!