一.火车头采集器的使用流程图
流程图如下:
采集器使用过程中重点在于编写采集规则
二.图解采集规则设置流程【重点解读】
1.设置采集规则第一步:
设置网站网址采集规则
点击添加-批量多页(如果是采集单页,则选择单条网址)—输入网址、等差数列—添加完成
等差数列的值根据你要采集的列表页数改变,如要采集5页,则填写5;
添加完成后可点击测试网址采集
2.设置采集规则第二步:
设置网站内容采集规则
随意打开采集页上的一篇文章做测试,更改标题、内容规则。
更改标题规则:查看文章源代码-ctrl+f 找到文章标题,将标题前后代码填入标题规则中;如图
更改内容规则:查看文章源代码-ctrl+f 找到文章内容的第一句和最后一句,将第一句前面的唯一代码和最后一句后面的唯一代码填入内容规则中。如图
设置规则完毕后,可测试采集效果
3.设置采集规则第三步:
导出采集内容-保存即可
知道了使用流程和重点,采集规则的大致设置流程,需要在系统的整理一遍,发现问题,重点再去解决问题
三.按照采集器使用流程实际测试使用并研究【系统解读】
1.官方软件下载
免费版本或者付费版本。下载使用
2.编写采集规则
需要确认采集的目标网站网址生成规律,和内容的具体地址
所以需要编辑两套采集规则:网址采集规则(待研究)和内容采集规则(已搞定)
a.【采集测试对象】
西安工业科技技术学校:http://xagykjjsxx.peixun5.com/
陕西航天职工大学:http://sxhtdx.peixun5.com/
陕西建设技师学院:http://sxjianshe.peixun5.com/
………….
b.【采集遇到待解决问题】
问题一:确认文章内容的所在地址:
(1)很多网站为了防止采集,所在页面显示的内容是从其他地址里面调用显示出来的,实际地址并不在本URL下。
需要用“fiddler”抓包工具,确认具体的文章所在地址
问题二:确认目标网站的网址:
- 文章的静态链接是用什么规律生成的?
起始网址,分页网址和规律,终止网址等
研究出静态网址的生成规律并用代码写出来。
问题三:保存的文件没有找到具体位置
需要设置好相对应的位置即可。
c.【解决方法】
(1)通过实测,咨询官网客服,远程视频协助。
(2)还解决不了的,需要找好一批采集目标网址,让官方代理编写网址采集规则。
如果看文以上讲解说明,还不会使用火车头采集器,或者不理解这些设置具体都是什么作用,目的何在等基础。则可以先去看看新手入门的一篇文章。很多点,都讲解的很到位,比官网还细致,明月SEO自己实测总结。详情请移步:新手必看的图解火车头采集器使用入门教程!(看完包会)
关注我们:请关注一下我们的微信公众号:扫描二维码

版权声明:本文为原创文章,版权归 明月SEO 所有,欢迎分享本文,转载请保留出处!