最新 火车头采集器 采集发布
教程
人力资源管理pdf成真迷上我教程下载西门子数控教程protel99se入门教程fi6130z安装使用教程
以采集示例详解部分功能
如果您是火车采集器的老手,那么您可以参考下,因为我要讲解的会有违传统的思维;如我您是新手那么您最好能仔细看下,因为这将加快您的入门,同时在以后给您节省很多时间。以下是一些采集的基本步骤,您可以灵活运用:
一、建立站点
1、请先打开火车采集器,新建站点,看下图:
为了方便管理您可以为您的站点取任何的您觉得易记的名称,但是我建议用目标源的名字作为站点的名称有利于日后的管理,如下图
大部分的站点,通站往往只有一套模版或者有几套类似的模版,这边所谓的类似讲的是模版中的标记很接近,那什么是模版标记?模版标记指的是某部分内容开始和结束记号。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如淘宝返利、163等)会在内容开始的部分用类似于或
等标志来表示内容的开始。他们这么作的原因有两个,一个是由于内容多,为了各个部门之间的配合而作了对应的标记以便于工程的交接,另一个原因就是内容控制的需要,随着xhtml的流行,用层控制越来越多,这就使得我们寻找采集标示越来越简单(这点你们以后会慢慢理解的)。上面给各位讲这些是因为接下来要我们要讲解的是整站内容规则。
2、标题标签讲解
对应的页面在这:
http://hywl.hyyxsoft.com/soft/6631.html
首先从“站点基本信息”切换到“整站内容规则”,然后把要采集的内容页面的网址拷贝到“典型页面”接着点击“测试”读取源码。先从标题标签开始,我们发现按默认标签采集回来的标题多了“_网易娱乐”,请双击标题标签或者选种标题标签在点击修改,把“_网易娱乐”添加到排除内容框里,标题标签完成。如图:
3、内容标签讲解
制作采集规则(任务)的任何一个标签最重要的就在于寻找开始也结束的标志。目前大部分的采集器要求开始和结束的标志必须是整个源代码的唯一标志,也就是所有的html源码里只能找到一个开始或结束的标志。但是火车采集器并不需要这么作,你要找的只需要是从上到下第一个标志就可以了,我的意思是说,html代码中允许有n个相同的开始(结束,下同)标志,但是只要这个位于我们要采集的内容的地方的标志是html从上到下的第一个就可以了。打开任何一个内容页面,这边以http://hywl.hyyxsoft.com/soft/6631.html 为例,我们发现他的内容从“进入论坛”,因此双击代码测试框,查找需要的代码,如图:
我们可以用这个作为内容开始的标志,不过这样还不完美,请自己在打开几个内容页面,在网页中“右键点击”——“查看源码”,然后对比代码,并提取相同的部分,我以
作为内容开始的标志。
接下来看内容结束标志,如下两图:
下面是根据我么设置规则采集回来的内容
一般来说我们从开始标志到结束标志所采集回来的内容中都会包含有必须排除的内容或广告,或链接。这边我们需要排除的内容是“相关专题>>> 淘宝返利”。排除的方法是,找到相对应的代码把代码完整的拷贝进内容排除窗口,变动的部分用“(*)”替代。由于这个是整站规则,所以必须多找几个类别,比如现在的这个163娱乐还包括了“明星 | 图片 | 电影 | 电视 | 音乐 | 论坛 | 专题 | 名人访 ”等,在这边我只抽取“明星、图片、电影”作为列子跟大家讲解。找其他的类别只是希望把规则做的通用完美,如果你只要其中的一个分类,比如“图片”那么你直接做这个的规则即可。
http://hywl.hyyxsoft.com/soft/6631.html 这个页面刚好有分页,所以就顺便讲下上下页的设置。他这边的“上一页”和“下一页”是用图片做链接的,所以只要不图片的名字(右键点击对应的图片查看属性,拷贝图片名即可)拷贝进对应的代码框即可,详细的看图片:
这边提示下,任何内容的排除你只要找到对应的代码完整的拷贝进代码排除窗并把其中可变的部分替换成"(*)"即可。由于他这边没有广告,所有整站规则就算制作完毕,点击保存进入单任务制作。好了,整站规则就讲这两个标签,其他的根据需要自己按上面的步骤添加,记住,万变不离其宗。其他的问题请到火车采集器论坛: 探讨。
二、下面讲解单任务规则制作:
1、内容规则的制作,很多人到现在可能都还不明白火车采集器好在哪,现在讲的这个绝对是火车独有的特色(至少到目前为止是这样,以后有没有人出相同的功能就不得而知了!)
火车采集器是不需要经过网址规则制作即可直接进入内容采集,这样你就可以根据站点的难易决定是否采集选定的目标源,而不必等到网址采集后才发现原来这个网站你没办法采或者根本不值得你浪费这个时间(前面的时间白搭了!)。
火车v3.0最大的功能之一既是可以继承站点的规则,只要你前面制作的规则通用,那么在接下来的所有任务都不需要再制作内容采集规则了。由于前面我们制作的内容采集规则通用,所以这边的规则我们就不用讲解了,直接继承站点的,如图:
2、网址采集规则制作
步骤:“新建”——“新建任务”,其他的操作如下图:
作规则需要善于去发现规律性的东西,作到这点采集就没什么问题了。我们要采集示例的地址在这http://hywl.hyyxsoft.com/soft/6631.html
这板只采集其中的1-3页作为范例。我们发现每个叶面的网址开始前面都包含“过往娱乐热点”结束都是“第1 2……页”,所以请到html源代码里面拷贝对应的代码,到特定区域采集范围中,另外,网址中必须包含“/06/” 这样网址采集就搞定了(简单吧,自己试试看),如下图:
3、发布方式。发布方式有5种,这边以最常用的“在线发布”为例。
选定web在线发布到网站,点击“定义全局发布方式”,然后按系统提示的步骤:选定发布模块——》填写网站/cms根地址——》使用火车内置浏览器登陆——》登陆后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发表 如下图高亮的部分是你要操作的步骤,从左到右从上到下:
下面是刚才我采集到本地论坛采集测试的两个截屏:
详细出处参考:http://www.hyyxsoft.com
火车头采集基本
流程
快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计
:\
系统设置(新建站点(新建任务(采集网址(采集内容(发布内容(抓数据。
1.新建站点:
据你自己的需求为任务建立统一的站点,以方便管理。
点击菜单上:站点(新建站点 打开如下图:
可以填写站点名,站点地址,网址深度(0,代表根据地址直接采内容。1,代表根据地址采内容地址,然后根据内容地址采内容。2,代表根据地址采列表地址,然后根据列表地址采内容地址,再根据内容地址采内容。),站点描述。
2.新建任务:
任务是采集器采集数据时的基本工作单元,它一定是建立在站点中的。采集器通过运行任务来采集发布数据。任务工作的步骤总体可以分为三步:采网址,采内容,发内容。一个任务的运行可以任意选择哪几步。而采集器又可以同时运行多个任务(默认设置是同时最多运行3个任务)。
选择站点 点击右键选择“从该站点新建任务” 。任务的编辑界面如图:
采集器的使用最主要的就是对任务的设置。而采集数据可以分为两步,第一步是:采网址,第二步:采内容。
3.采集网址:
采网址,就是从列表页中提取出内容页的地址。
从页面自动分析得到地址连接:以http://list.dangdang.com/book/01.45.52_P1.html页面为例。我们来采集这个网址上的书信息。这个页面中有很多书信息的链接,要采集每个链接中书内容.首先需要将每个书信息的链接地址抓取到也就是抓取内容页的地址。
先将该列表页地址添加到采集器里。点击“<<向导添加”后弹出“添加开始采集地址”对话框。我们选择“单条网址” 如图:
点击添加把http://list.dangdang.com/book/01.45.52_P1.html地址添加到下面框中,点击完成即实现增加列表地址。
如果我们选择 “批量/多页” ,如图:
可用通配符:(*) 可以代替页码变化时的地址之间的差异。数字变化可以设置你要爬取该列表页多少页。
间隔倍数可以数字页码变化的倍数。你也可以设置字母变化。设置完之后点击添加按钮把列表地址添加到下框中,点击完成即可完成列表地址设置。
你也可以选择 文本导入 和 正则提取 在这里就不一一讲了,因为这二种基本用的很少。
手动填写连接地址规则是将需要的网址用参数来获得并组合成我们需要的网址。这个好处是处理网址那块有规律的网址很好处理,但要是没规律,和周围的一样的话,就不好处理了。我们以http://list.dangdang.com/book/01.45.52_P1.html为例. 看图里的设置:
这样设置就可以获得内容页网址了,这个网址是从摘要那块获得的,那一块的代码都是一个样式,所以可以。
你看上图的话,会发现在参数那里有个缩略图,因为有的文章是将缩略图放在列表里的。现在我们举个例子。看这个http://www.hyyxsoft.com,这个是电影的,有小图的,我们看一下怎么获得这个图片。注意,这里是同时获得网址和缩略图的。
这样设置就可以获得真实网址了,这个网址是从摘要那块获得的,那一块的代码都是一个样式,所以可以。
你看上图的话,会发现在参数那里有个缩略图,因为有的文章是将缩略图放在列表里的。现在我们举个例子。看这个http://www.hyyxsoft.com,这个是电影的,有小图的,我们看一下怎么获得这个图片。注意,这里是同时获得网址和缩略图的。
在脚本规则里输入 [缩略图] 下边即出现无缩略图的提取内容中的第一张选项,将该项选中即可,再将[缩略图] 这几个字符去掉。如果您需要下载该图片,请选中将缩略图下载到本地。如果您不使用手动链接地址规则获取网址,将启用自定义格式得到地址选项去掉即可。 注意事项:该功能只提取内容标签中的图片,所以请确保您要提取的图片在内容标签中。同时。如果内容标签中选了下载图片,则提取的图片也是下载到本地的图片地址。
因为网址和缩略图那块的样子就是下边的,是有规律的,所以可以获得网址
如果我们遇到那些用脚本做栏目列表时怎么办呢?用自动识别是不行的了。这时,该使用手动设置链接格式这个功能起作用了,这也是针对脚本类网址最好的解决办法。下边我们以腾讯Flash频道_作品列表为例来讲一下http://www.hyyxsoft.com/tao/index.html你用自动获取网址是得不到什么地址的.
我们仔细分析地址:http://www.hyyxsoft.com/tao/index.html源码后就会发现,这个是这个样子的网址http://flash.qq.com/cgi-bin/viewwork?id=727749 ,只有最后的数字是不同的,而这数字就包含在脚本里边,我们看一下源码:
注意:new Array("727749",后边就有我们要的网址,还有缩略图,我们可以这样写规则:
这样就可以了,看一下效果
OK了。
4.采集内容:
当所有网址抓取完后就可以开始抓取内容。抓取内容就是采集器请求到内容页后分析内容页的HTML源代码并依据在采集器中的标签规则设置匹配出相应的数据。在测试到的地址中,任意选择一个子地址,双击选中的地址或者点击“测试该页”按钮。如图:
将会跳转到任务中的“第二步:采集内容规则”如图:
在典型页面中会出现刚才选中的网址,这里就是测试采集内容。左边的标签名下面有:标题,出版社,图片,图片地址共四个标签,可以对标签进行添加、删除和编辑等操作。每个标签就是采集后得到的一段内容,可以是从页面中截取的内容,也可以是设置的一个固定的值或其他方式得到的值。
现在让我抓取http://product.dangdang.com/product.aspx?product_id=9188924&ref=book-02-L地址中的标题,查看该页的HTML源代码。在源代码中可以找到页面中的问题部分。如图:
可以从网页HTML源代码里得到需要的标题(工程硕士研究生英语基础教程(学生用书))。
复制页面HTML中“
”后在文本中向上查找发现查找不到与该段相同的代码,说明此处是该段代码第一次出现的地方。如图:
选择标题标签 ,点击右边的“编辑标签”按钮 打开如下图:
复制这段代码到“内容标签编辑框”的“开始字符串处”。 “”是“
”后面第一次出现的地方。复制“”到“结束字符串”处。如图:
如果发现标题中含有“
<\pre><\ca>”像这样的HTML代码,可以在标签设置里将这些没用的代码排除。设置如图:
在此对话框中可以设置 标签内容必须包含什么和标签内容不得包含什么。
上面的 (*)可以代表为任何字符。
在这里还可以设置汉英翻译,简繁体互转:
火车采集器可以将抓取的汉字翻译成英语,方便一些朋友翻译用或做国外网站.同时支持将简体和繁体进行转化,方便简繁体用户交流. 汉译英,简体转繁体使用很简单,只要在标签内选中即可.
如果“使用正则匹配模式”采集数据 :
正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车采集器就支持正则规则的编写了,这给喜欢用正则来实现不同需求的朋友带来福音。火车采集器里支持两种正则,一个纯正则,一个参数正则。我们下边分开讲一下:
1.纯正则:
在标签中用正则表达式采内容的格式是这样:开始代码(?正则表达式)结束代码,其中在开始代码和结束代码中如有需要转义的字符就要用\转义。比如我们要获取火车论坛的版块,我们从首页获取,正则可以这样写
然后就可以获得我们需要的版块名称了。
2.参数正则:
这个不算是正则,和网址采集那块的参数使用原理是一样的,可以对采到的内容进行组合。输入框两边都不得为空,后边的组合结果 [参数N] 是按匹配内容的顺序来写的,我们还是以http://bbs.locoy.com/为例,来获得栏目ID和栏目名称。
测试一下,是可以获得我们需要的结果了。正则基本就这样,主要是写表达式的问题。如果您对这有兴趣,可以下载相关一些资料研究一下。
设置完之后点击“确定”按钮后点“测试”按钮得到页面中的数据。如图:
看下面我们怎么样下载图片到本地来:
现在让我抓取http://product.dangdang.com/product.aspx?product_id=9188924&ref=book-02-L地址中的图片。查看该页的HTML源代码。在源代码中可以找到页面中的问题部分。如图:
发现““是唯一的 ,复制这段代码到“内容标签编辑框”的“开始字符串处”。 “
”是“”后面第一次出现的地方。复制“
”到“结束字符串”处。
火车采集器的所有版本均支持下载图片。这里所说的图片是 源代码里的有
模板
个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载
,该模板的内容和web发布模块的方式基本一致。比如[标签:标题]将会被替换成实际采集的内容。
3.txt 程序将所有的
记录
混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载
保存在一个txt文本里,每个标签之间用换行间隔。
注意:本地文件的编码需要注意,默认的保存方式是和采集源一样的编码。如果您指定了某种编码,请将html文件也保存成相应的编码文件。 请按下图进行设置。
设置完之后便可以采数据了。
6.抓数据:
点击该站点下要执行的任务 ,右击选择“开始任务采集” 便出现如图:
当运行完之后便产生一个文件,打开文件便是抓取下来的内容。
如果你抓取了图片,便会出现 :
图片保存在你设置的图片路径。看下图: