下载

0下载券

加入VIP
  • 专属下载券
  • 上传内容扩展
  • 资料优先审核
  • 免费资料无限下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 如何撰写Robots文件

如何撰写Robots文件.doc

如何撰写Robots文件

zheng万霞
2018-09-30 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《如何撰写Robots文件doc》,可适用于IT/计算机领域

如何撰写Robots文件什么是robotstxt文件搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时会首先会检查该网站的根域下是否有一个叫做robotstxt的纯文本文件这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robotstxt在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意仅当您的网站包含不希望被搜索引擎收录的内容时才需要使用robotstxt文件。如果您希望搜索引擎收录网站上所有内容请勿建立robotstxt文件。robotstxt文件放在哪里robotstxt文件应该放置在网站根目录下。举例来说当spider访问一个网站(比如)时首先会检查该网站中是否存在这个文件如果Spider找到这个文件它就会根据这个文件的内容来确定它访问权限的范围。网站URL相应的robotstxt的URL:wwwworgrobotstxt::robotstxt::robotstxt:worgrobotstxt我在robotstxt中设置了禁止百度收录我网站的内容为何还出现在百度搜索结果中,如果其他网站链接了您robotstxt文件中设置的禁止收录的网页那么这些网页仍然可能会出现在百度的搜索结果中但您的网页上的内容不会被抓取、建入索引和显示百度搜索结果中展示的仅是其他网站对您相关网页的描述。禁止搜索引擎跟踪网页的链接而只对网页建索引如果您不想搜索引擎追踪此网页上的链接且不传递链接的权重请将此元标记置入网页的<HEAD>部分:<metaname="robots"content="nofollow">如果您不想百度追踪某一条特定链接百度还支持更精确的控制请将此标记直接写在某条链接上:<ahref="signinphp"rel="nofollow">signin<a>要允许其他搜索引擎跟踪但仅防止百度跟踪您网页的链接请将此元标记置入网页的<HEAD>部分:<metaname="Baiduspider"content="nofollow">禁止搜索引擎在搜索结果中显示网页快照而只对网页建索引要防止所有搜索引擎显示您网站的快照请将此元标记置入网页的<HEAD>部分:<metaname="robots"content="noarchive">要允许其他搜索引擎显示快照但仅防止百度显示请使用以下标记:<metaname="Baiduspider"content="noarchive">注:此标记只是禁止百度显示该网页的快照百度会继续为网页建索引并在搜索结果中显示网页摘要。我想禁止百度图片搜索收录某些图片该如何设置,禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现请参考“robotstxt文件用法举例”中的例、、。robotstxt文件的格式"robotstxt"文件包含一条或更多的记录这些记录通过空行分开(以CR,CRNL,orNL作为结束符)每一条记录的格式如下所示:"<field>:<optionalspace><value><optionalspace>"。在该文件中可以使用#进行注解具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行Useragent开始后面加上若干Disallow和Allow行,详细情况如下:Useragent:该项的值用于描述搜索引擎robot的名字。在"robotstxt"文件中如果有多条Useragent记录说明有多个robot会受到"robotstxt"的限制对该文件来说至少要有一条Useragent记录。如果该项的值设为*则对任何robot均有效在"robotstxt"文件中"Useragent:*"这样的记录只能有一条。如果在"robotstxt"文件中加入"Useragent:SomeBot"和若干Disallow、Allow行那么名为"SomeBot"只受到"Useragent:SomeBot"后面的Disallow和Allow行的限制。Disallow:该项的值用于描述不希望被访问的一组URL这个值可以是一条完整的路径也可以是路径的非空前缀以Disallow项的值开头的URL不会被robot访问。例如"Disallow:help"禁止robot访问helphtml、helpabchtml、helpindexhtml而"Disallow:help"则允许robot访问helphtml、helpabchtml不能访问helpindexhtml。"Disallow:"说明允许robot访问该网站的所有url在"robotstxt"文件中至少要有一条Disallow记录。如果"robotstxt"不存在或者为空文件则对于所有的搜索引擎robot该网站都是开放的。Allow:该项的值用于描述希望被访问的一组URL与Disallow项相似这个值可以是一条完整的路径也可以是路径的前缀以Allow项的值开头的URL是允许robot访问的。例如"Allow:hibaidu"允许robot访问hibaiduhtm、hibaiducomhtml、hibaiducomhtml。一个网站的所有URL默认是Allow的所以Allow通常与Disallow搭配使用实现允许访问一部分网页同时禁止访问其它所有URL的功能。需要特别注意的是Disallow与Allow行的顺序是有意义的robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。使用"*"和"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url。"$"匹配行结束符。"*"匹配或多个任意字符。URL匹配举例Allow或匹配结URLDisallow的值果tmptmpyestmptmphtmlyestmptmpahtmlyestmptmpnotmptmphohonotmptmpahtmlyesHello*HellohtmlyesHe*loHello,loloyesHeap*loHello,lolonohtml$tmpahtmlyesahtml$ahtmlyeshtm$ahtmlnorobotstxt文件用法举例Useragent:*例禁止所有搜索引擎访问网站的任何部分Disallow:Useragent:*Disallow:例允许所有的robot访问或者(或者也可以建一个空文件"robotstxt")Useragent:*Allow:Useragent:例仅禁止Baiduspider访问您的网站BaiduspiderDisallow:Useragent:BaiduspiderDisallow:例仅允许Baiduspider访问您的网站Useragent:*Disallow:例禁止spider访问特定目录Useragent:*在这个例子中该网站有三个目录对搜索引擎的访问Disallow:做了限制即robot不会访问这三个目录。需要注意的是cgibin对每一个目录必须分开声明而不能写成"Disallow:Disallow:tmpcgibintmp"。Disallow:~joeUseragent:*Allow:cgibinseeAllow:tmphi例允许访问特定目录中的部分urlAllow:~joelookDisallow:cgibinDisallow:tmpDisallow:~joe例使用"*"限制访问urlUseragent:*禁止访问cgibin目录下的所有以"htm"为后缀的Disallow:URL(包含子目录)。cgibin*htmUseragent:*例使用"$"限制访问urlAllow:htm$仅允许访问以"htm"为后缀的URL。Disallow:Useragent:*例禁止访问网站中所有的动态页面Disallow:**Useragent:BaiduspiderDisallow:*jpg$Disallow:例禁止Baiduspider抓取网站上所有图片*jpeg$仅允许抓取网页禁止抓取任何图片。Disallow:*gif$Disallow:*png$Disallow:*bmp$Useragent:BaiduspiderAllow:*gif$Disallow:例仅允许Baiduspider抓取网页和gif格式图片*jpg$允许抓取网页和gif格式图片不允许抓取其他格式Disallow:图片*jpeg$Disallow:*png$Disallow:*bmp$Useragent:Baiduspider例仅禁止Baiduspider抓取jpg格式图片Disallow:*jpg$robotstxt文件参考资料robotstxt文件的更具体设置,请参看以下链接:WebServerAdministrator'sGuidetotheRobotsExclusionProtocolHTMLAuthor'sGuidetotheRobotsExclusionProtocolTheoriginalprotocoldescription,ascurrentlydeployedTherevisedInternetDraftspecification,whichisnotyetcompletedorimplemented

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/7

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利