关闭

关闭

关闭

封号提示

内容

首页 SupeSite采集器的详细介绍

SupeSite采集器的详细介绍.pdf

SupeSite采集器的详细介绍

大漠 2011-07-02 评分 0 浏览量 0 0 0 0 暂无简介 简介 举报

简介:本文档为《SupeSite采集器的详细介绍pdf》,可适用于IT/计算机领域,主题内容包含本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器符等。

本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。SupeSite采集器的详细介绍出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。好消息:Lunarpages再推新优惠码:lunoff所有方案减美元SupeSite支持手工采集和智能采集手工采集需要您自己配置采集规则智能采集只需您添加需要采集的网址地址即可程序会自动为您采集网站的信息。接下来分别为您介绍两种采集方式:一、手工采集:手工采集即自己配置采集规则。打开SupeSite的“系统设置”点击“资讯管理”的“采集器”然后点击“添加新机器人”。首先简单讲解制作采集器的基本原理和思路:、确定您要采集哪个页面的新闻将这些页面的地址填入到“列表页面采集设置”的地址框、确定在这些页面您要采集的内容区域因为不是一个网页所有的内容都要采集回来而是采集一个网页的一部分内容所以您必须告诉程序您要采集的区域也就是“列表区域识别规则”、第步确定区域之后还要告诉程序您要采集的文章链接也就是“文章链接url识别规则”。本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。、现在已经确定了大的采集框架接下来要告诉程序在一个文章页面文章的标题(“文章标题识别规则”)文章的来源和作者分别是什么。然后就是一篇文章内容的范围也就是说一个文章页面内真正您需要采集的范围就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。、以上个步骤已经确定了采集的范围如果您需要过滤标题和内容请根据您的要求设置每一项的过滤设置如“文章标题过滤规则”和“文章内容过滤规则”等。以上几个步骤确定范围都是通过查看页面源码进行设置的截取的方法需要一些经验练习--次就可以领悟到了。接下来介绍采集器的基本原理和步骤:第:打开SupeSite的“系统设置”点击“资讯管理”的“采集器”然后点击“添加新机器人”。这里需要特别指出的是:单次采集个数和自动导入。单次采集个数尽量设置较小的数字以免超时。自动导入请选择资讯分类可以直接将采集的结果导入到资讯库中。如下图:本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。第:填写“列表页面采集”和“采集页面编码”。请填写要采集的页面地址(列表页面地址)。这里分为手工输入和自动输入:手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码用page代替分页变量。如下图:点击上图中的尝试链接可以看到如下图的页面这样可以判断您的服务器是否可以链接到要采集的网站即检测服务器是否允许采集如果这里显示无法链接则不能采集该网页。设置“采集页面编码”是您采集网页的编码并不是您站点的编码。这里切记!!如下图:本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。第:设置“列表区域”和“文章链接”的识别规则。如下图填入列表区域的规则和文章链接的规则采集内容的范围用list代替采集文章的标题用url代替。文章链接URL的剔除和过滤规则请您参考图片里的详细说明这里不再赘述。本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。第:设置“文章标题”识别规则如下图文章标题用subject代替。文章标题的过滤规则剔除规则替换规则包含关键字请您参考图片里的详细说明这里不再赘述。第:设置“文章内容”的识别规则如下四图都属于文章内容识别规则。文章内容用message代替分页区域用pagearea代替分页链接用page代替信息来源用from代替文章作者用author代替。同上一些过滤剔除等规则请您参考图片里的详细说明这里不再赘述。这里说明几点:本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。文章内容格式化:此操作将去除网页多余代并将文章内容按原有段落分段。格式化的过程为程序自动分析会存在一些误差。保存内容中的图片到本地和保存内容中的FLASH到本地这里选择是否将采集到的图片和Flash存放到本地。如需将对方网站的图片存放到自己的服务器上请选择“是”!本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。至此已经设置完一个采集规则然后点击“开始采集”采集完毕之后点击“查看结果”。最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。这里重点说明导入后删除和不删除如果选择删除则采集来的信息在导入资讯之后将无法再次被使用。本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。二、智能采集:智能采集为您提供非常简单易用的采集方式。只要将您需要采集的站点地址添加到地址框然后点击开始采集即可。智能采集集成于手工采集中您只需将采集的地址填入地址框然后点击提交即可。如下图:更多电子书SEO方面的知识有很多对于新手来说如果你不知道不清楚这方面的知识那么你可以看看这两部搜索引擎指南:SEO搜索引擎优化基础教程:http:bbszzbaikecomthreadhtmlSEO搜索引擎优化高级教程:http:bbszzbaikecomthreadhtmlwordpress的中文翻译文档:http:wwwwordpresslacodexhtmlwordpress开发的相关知识都有对WordPress开发感兴趣的博主会有一定的用处。WordPress免费主题:http:wwwwordpresslathemehtmlWordPress免费插件:http:wwwwordpresslapluginhtmlWordPress主题制作电子书:http:bbszzbaikecomthreadhtml本电子书由站长百科(wwwzzbaikecom)教程组制作出处:站长百科原文地址:http:wwwzzbaikecomwikiSupeSite采集器介绍本电子书整理自站长百科SupeSite采集器介绍词条查看内容请访问网站。Apache中文文档电子书:http:bbszzbaikecomthreadhtmlIXWeHosting控制面板使用手册(在线版PDF电子书):http:bbszzbaikecomthreadhtml更多电子书下载:http:downzzbaikecomebook美国主机IXWebHosting使用视频教程(在线观看及下载)http:bbszzbaikecomthreadhtmlGodaddy主机及域名使用视频教程(在线观看及下载)http:bbszzbaikecomthreadhtml如果您有站长类电子书请到这里与我们分享:http:bbszzbaikecomforumhtml详情见:http:bbszzbaikecomthreadhtml站长百科感谢您下载阅读多谢支持!SupeSite采集器的详细介绍

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +1积分

资料评分:

/10
0下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部

举报
资料