当前位置:吴康利的博客 > DISCUZ >

FC采集器详细教程,采集一个网站

网址:https://www.discuz.net/forum-2-1.html 1.添加采集器 打开我们的FC采集插件,选择添加采集器,填写规则名称。如图 2.分页列表获取 首先我们先观察一下这个板块网址变化,如图,不同页

admin
网址:https://www.discuz.net/forum-2-1.html

 

1.添加采集器

打开我们的FC采集插件,选择添加采集器,填写规则名称。如图

 

 

 

2.分页列表获取

首先我们先观察一下这个板块网址变化,如图,不同页数对应的网址不一样

知道规律了吗?变化的地方只是数字而已。而数字代表页码,页码我们用符号 (*) 代替。那么我们要采集前10页的帖子可以这样设置: 在地址里面输入:

https://www.discuz.net/forum-2-(*).html


设置从1到10,步长为1,所谓步长,就是每次增长1的意思。

填写网址规则中的采集范围选择《从分页列表采集文章 》如图

 

 

 

 

3.文章列表获取(列表区域教程具体访问这里)

列表区域识别设置选择:DOM获取 ,打开第一页,选择一个标题,右击鼠标,选择审核元素,如图

 
 
 
列表区域识别设置规则
tr
a.xst

 

 
 
 
 
 

4.标题获取

设置标题获取,打开第一页中的任何一个内容,选择标题,右击鼠标,选择审核元素。
 
 
DOM写法:span#thread_subject

DOM写法教程点击这里查看

 
字符串写法:<span id="thread_subject">[title]</span>

字符串写法教程点击这里查看

 

 

5.内容规则

设置内容获取,打开第一页中的任何一个内容,选择前面一句,右击鼠标,选择审核元素,如图
  
 
DOM写法:td.t_f

DOM写法教程点击这里查看

 
字符串写法:<td class="t_f" [body]</td>

字符串写法教程点击这里查看

 
 

6.数据过滤与替换(具体教程点击这里)

可以看到我们获取内容种是由图片广告的,这种我们不需要,怎么将其剔除调呢?

首先我们选中是否需要进一步处理内容:

 

我们只需要选择内容剔除规则,同样的使用DOM写法,找到图片所在的class或者id

div.a_pr

 即为剔除规则。如图:

 

7.发布设置与其它设置简单,自已设置了,教程就讲到这里



返回顶部