robots文件-robots协议-robots有什么作用-百度优化大师-有什么-学习网-优化大师-作用-协议

robots.txt文件,robots协议,robots.txt有什么作用  robots实在就是指Robots协议,Robots协议(也称为爬虫协议、呆板人协议等)的全称是“收集爬虫解除尺度”(RobotsExclusionProtocol),网站通过Robots协议告诉搜刮引擎哪些页面可以抓取,哪些页面不能抓取。而承载这些协议的文件就是robots.txt文件,那么robots.txt文件到底有啥用途,robots协议应该怎么写,有哪些注重事项,笔者在本文将具体跟各人先容。一、robots.txt文件的寄义,robots.txt有什么作用前面有提到,这个文本文件承载着robots协议,它告诉全部搜刮引擎本网站哪些页面可以被抓取,哪些页面克制抓取。如许做有两方面的意义:1.掩护隐私。有些页面信息不想或者说不能让外界看到,单搜刮引擎并不知道这些环境,它照旧会照常抓取、揭示。假如我们通过配置robots做了限定,搜刮引擎蜘蛛就会放弃抓取,外界就不能通过搜刮引擎相识到这些隐秘信息。2.调节页面抓取量。我们都知道每个网站蜘蛛抓取的配额都是有限的,假如我们通过robots.txt文件克制一些不紧张的页面被抓取,那么就节约了配额,让那些紧张的页面获得更多的抓取时机。二、robots.txt文件的写法robots协议针对的就是许可或者不许可,另外也可以配置详细的搜刮引擎,笔者认为正常环境下不消去区分搜刮引擎,同一配置即可。1.克制全部搜刮引擎会见网站User-agent:*Disallow:/2.许可全部搜刮引擎会见网站User-agent:*Allow:/这是最基本的用法,robots协议的用法另有许多技能,笔者发起各人去细心阅读robots协议。三、robots.txt文件相关注重事项有伴侣说我的网站没有什么要克制抓取的,你就不要配置robots.txt文件了吧,理论上行得通。不外,笔者发起,即便所有开放也最好配置一个robots文件,如本站的文件:http://www.tangmengyun.com/robots.txt。PS:关注过本网站的伴侣应该有印象,笔者说过本站是11月6号才有正式有蜘蛛抓取,为什么之前几天没有呢,问题就出在robots文件上!之前本站并没有配置这个文件,持续3天都没有蜘蛛抓取,笔者再三查抄也没有发现有限定的处所,末了意识可能是robots的问题。在配置了robots.txt文件以后,当天便有蜘蛛正常抓取了。四、robots.txt文件的位置放在网站根目次下,在链接url的显示就是:http://www.abc.com/robots.txt,此中www.abc.com就是网站域名。五、robots文件天生有朋友提到有没有直接出产robots文件的工具,笔者认为这完全没有须要,robots文件应该手动去详细配置,如许才能施展robots.txt文件最大的作用。本文只是对robots.txt文件做了大要意义上的解说,更多robots协议请参考百度百科资料https://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797。      -->robots协议

客户评论

我要评论