首页 火车头采集步骤整理

火车头采集步骤整理

举报
开通vip

火车头采集步骤整理 第一步:打开火车头采集工具 第二步:右击新建分组→再右击新建任务 第三步:写好任务名称→起始网址选择添加→选择你要采集的网址,比如现在采集的网址:http://www.fx120.net/disease1/qlxy/jbcs/List_8.html →把重复变换的8位置选择用*替代→等差数列:首项表现开始采集的页面,项数表示要采集几个页面的文章→添加→完成 注意:在采集的网站列表页面,如果超出列表的页面会出现采集不了的情况; 第四步:多级网址获取→添加→从该选定区域提取网址→必须包含→保存→测试网址...

火车头采集步骤整理
第一步:打开火车头采集工具 第二步:右击新建分组→再右击新建任务 第三步:写好任务名称→起始网址选择添加→选择你要采集的网址,比如现在采集的网址:http://www.fx120.net/disease1/qlxy/jbcs/List_8.html →把重复变换的8位置选择用*替代→等差数列:首项表现开始采集的页面,项数表示要采集几个页面的文章→添加→完成 注意:在采集的网站列表页面,如果超出列表的页面会出现采集不了的情况; 第四步:多级网址获取→添加→从该选定区域提取网址→必须包含→保存→测试网址 从该选定区域提取网址: 首先指采集的列表页所包含的区域,右击页面查看源代码,找到相应的代码; 注意:代码只能在页面中出现一次,而且是越靠近文章列表的越好; http://www.fx120.net/disease1/qlxy/jbcs/List_8.html 第五步:测试网址→前面的加号表示采集成功→第一步采集规则成功; 第六步:随便点开任何一篇文章,即会出现以上如图所示; 第七步:点击标题→选择添加→内容替换→把标题中重复出现的目标关键词去掉,如: _前列腺炎_放心医苑网→确定 第八步:修改内容→开始字符串→结束字符串→添加→Html标签过滤→全选→确定→确定; 开始字符串: 首先指采集的内容页所包含的区域,右击页面查看源代码,找到相应的代码; 注意:代码只能在页面中出现一次,而且是越靠近内容的越好; 第九步:测试→正文出现的部分如图中所示→第二步采集规则完成; 第十步:选择启用方式二→所有记录保存为一个txt文件→保存位置→文件模板→文件编码(GB2312)→保存; 注意:文件模板必须使用我发给你的模板; 第十一步:把后面的三个框框选中→右击→开始任务运行;
本文档为【火车头采集步骤整理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_795486
暂无简介~
格式:doc
大小:881KB
软件:Word
页数:9
分类:互联网
上传时间:2013-04-15
浏览量:36