首页 CMSware新建采集分类之索引页规则定义

CMSware新建采集分类之索引页规则定义

举报
开通vip

CMSware新建采集分类之索引页规则定义 本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 CMSware新建采集分类之索引页规则定义  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子...

CMSware新建采集分类之索引页规则定义
本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 CMSware新建采集分类之索引页规则定义  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科CMSware新建采集分类/索引页规则定义词条,查看内 容请访问网站。 新建采集分类/采集索引页规则定义 本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 • 采集索引页面URL: 待采集的内容链接列 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 页,一般是网站的 2级或 3级栏目首页. • 采集索引页有效区域定位规则: 用来定位有效的内容链接位置,如下图. 本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 我们要采集的是国内最新播报的内容,所以其它区域的无效链接要过虑掉,而通 过设置采集索引页有效区域定位规则就可以过虑无效的链接. 本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 我们通过查看网页的源代码来定位有效链接区域,如上图,有效区域位于 国内最新播报 ...... .... 有效链接区域 .. 通过搜索,我们可以得知国内最新播报在整个网页源码中是唯一的,所以它也可 以用来作为头标识,而用来作为尾标识即可.最后定下来的正则规则是: /国内最新播报(.*)<\/html>/isU 本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 名词解释: * 头标识 : 用来定位采集有效区域开始的字串,在整个网页源代码中必须 唯一. * 尾标识 : 用来定位采集有效区域结束的字串,在整个网页源代码中必须 唯一. 正则语法: * 所有采集正则必须以/开始, /isU结束.格式.即: /头标识(.*)尾标识/isU * 头/尾标识中的所有/符号必须加个\转义符,也就是< /html>你要写成 <\/html> 头/尾标识中的所有"符号必须加个\转义符,也就是你要写成 * [\s]*代表 0个或多个空格, * [^\"><\s]*代表除了",<,>,空格外的所有字符 * [0-9]+代表任意的数字组合: • 有效内容页 URL过虑规则: 本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 通过 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 有效区域里面的链接格式,我们最终确定了有效内容页 URL过虑规则 如下: /<\s]*content_[0-9]+.htm)/isU 正则语法: * 所有采集正则必须以/开始, /isU结束.格式.即: /头标识.......尾标识/isU * 头/尾标识中的所有/符号必须加个\转义符,也就是你要写成 <\/html> 头/尾标识中的所有"符号必须加个\转义符,也就是你要写成 * [\s]*代表 0个或多个空格, * [^\"><\s]*代表除了",<,>,空格外的所有字符 * [0-9]+代表任意的数字组合 * \r代表回车符 本电子书由站长百科(www.zzbaike.com)教程组制作  出处:站长百科  原文地址:http://www.zzbaike.com/wiki/CMSware新建采集分类/索引页规则定义  本电子书整理自站长百科 CMSware新建采集分类/索引页规则定义词条,查看内容请访问网站。 * 有效链接地址我们使用(.....)来标识,如上 /<\s]*content_[0-9]+.htm)/isU 设置完之后我们点测试,如果规则无误的话,系统将可以解析出所有有效内容页 地址 CMSware新建采集分类之索引页规则定义
本文档为【CMSware新建采集分类之索引页规则定义】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_598835
暂无简介~
格式:pdf
大小:462KB
软件:PDF阅读器
页数:0
分类:互联网
上传时间:2011-07-28
浏览量:7