FC采集器详细教程,采集一个网站
网址:https://www.discuz.net/forum-2-1.html 1.添加采集器 打开我们的FC采集插件,选择添加采集器,填写规则名称。如图 2.分页列表获取 首先我们先观察一下这个板块网址变化,如图,不同页
网址:https://www.discuz.net/forum-2-1.html
1.添加采集器
打开我们的FC采集插件,选择添加采集器,填写规则名称。如图
2.分页列表获取
首先我们先观察一下这个板块网址变化,如图,不同页数对应的网址不一样
知道规律了吗?变化的地方只是数字而已。而数字代表页码,页码我们用符号 (*) 代替。那么我们要采集前10页的帖子可以这样设置: 在地址里面输入:
https://www.discuz.net/forum-2-(*).html
设置从1到10,步长为1,所谓步长,就是每次增长1的意思。填写网址规则中的采集范围选择《从分页列表采集文章 》如图
3.文章列表获取(列表区域教程具体访问这里)
列表区域识别设置选择:DOM获取 ,打开第一页,选择一个标题,右击鼠标,选择审核元素,如图

列表区域识别设置规则
tr a.xst

4.标题获取
设置标题获取,打开第一页中的任何一个内容,选择标题,右击鼠标,选择审核元素。

DOM写法:span#thread_subject
DOM写法教程点击这里查看

字符串写法:<span id="thread_subject">[title]</span>
字符串写法教程点击这里查看
5.内容规则
设置内容获取,打开第一页中的任何一个内容,选择前面一句,右击鼠标,选择审核元素,如图

DOM写法:td.t_f
DOM写法教程点击这里查看

字符串写法:<td class="t_f" [body]</td>
字符串写法教程点击这里查看

6.数据过滤与替换(具体教程点击这里)
可以看到我们获取内容种是由图片广告的,这种我们不需要,怎么将其剔除调呢?
首先我们选中是否需要进一步处理内容:
我们只需要选择内容剔除规则,同样的使用DOM写法,找到图片所在的class或者id
div.a_pr
即为剔除规则。如图:
7.发布设置与其它设置简单,自已设置了,教程就讲到这里