首页
   /       /   
万晨导航系统:资源采集-自定义采集
6月
19
万晨导航系统:资源采集-自定义采集
作者: 52技术博客    分类: 网站搭建     正在检查是否收录...

资源采集-自定义采集

后台功能目录:
第一步:添加要采集的网站
第二步:添加网站采集规则
自定义采集规则也是相当的简单,只需要你会一点点的css就可以搞定

后台功能目录:
[超级采集]
[资源采集]
1、自定规则

第一步:添加要采集的网站
这里我们以小刀娱乐网为例:www.x6d.com
点击上方新增按钮

我们将小刀娱乐网的域名输入进去,点击一键获取,即可获取该网站的TDK,图标和logo
按照你的喜好程度调整一下,点击确定按钮即可。
注意:一键获取并不是万能的,获取不成功,只能手动填写信息!!!

第二步:添加网站采集规则
这个时候,我们点击刚才添加网站的采集/规则,来进行规则编写

点击之后,会出现如下界面

随后,我们点击新增按钮,来编写小刀娱乐网首页的最近更新采集规则
会弹出如下界面

划重点了,接下来我们打开小刀的网站首页:www.x6d.com
打开之后,我们拉到最近更新的地方,然后按下F12,审查元素。

我们用左下角上的鼠标按钮,来寻找目标,如下图注释。

大致的列表定位就是:div#newslist ul li
或者也可以写成:#newslist ul li
细心的你一定发现了这个问题,有的li的class带addd,有的带new,这个也是一个过滤条件。
你要是只获取今日更新的教程,你就可以这样写,不要局限你的思维

大致的列表定位就是:div#newslist ul li.new
或者也可以写成:#newslist ul li.new
下面的话,就可以这样填写了,我采用的是只获取今日最新的列表

接下来是获取链接,我们看li下的链接定位

大致的层级关系是这样的:

[li]
[a]
[span]
那么得出了以下结果

列表链接:a
列表标题:a
列表时间:span
那么就可以如下填写信息

采集类型我们可以看到,有两个选项:1、内容 2、链接
这里的意思是,我们采集过来是直接跳转链接还是内容。
如果你选择了内容的话,就继续下个步骤:获取内容定位。
这里我们就拿 https://www.x6d.com/i-wz-15612.html
这个来实例,获取内容,还是一样的,打开之后,按f12,审查元素

由上图可知,可以得出如下结论

内容定位:.article-content
或者写成:div.article-content
然后我们就填写如下信息:

过滤行数的作用就是过滤列表的前几行。我这里采集的是今日最新,所以就填写了0即可、
内容图片这里,是看内容里面的img的src属性是否正确的指向了图片地址,一般是不用改的,就默认src

例如,小刀这里的内容页,就是保持的src默认属性。
剔除元素:以“,”分割,作用是为了剔除你不想要的部分。
比如你想剔除img元素和span,就可以直接这样写

img,span
不用剔除就留空即可
css跟js是添加到内容底下的,你要是想采集过来附加什么样式的话,都可以自定义。
接下来我们保存这项规则,点击刷新,来测试一下。

我们来对比一下,采集的地方是否准确就可以了。
然后我们来测试一下采集就可以了,不准确的地方,可以修改规则微调一下。

本文标签: 本文没有标签哦!
责任声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!
转载声明:本文作者 52技术博客,如需转载请保留文章出处!原文链接请自行复制!
版权所有:52技术博客
文章标题:万晨导航系统:资源采集-自定义采集
除非注明,文章均为 52技术博客 原创,请勿用于任何商业用途,转载请注明作者和出处 52技术博客

评论

Theme By Brief 陕ICP备17000448号
sitemap


为学日益,为道日损。 | 道德经

首页

分类

友链