网站全部者使用/robots.txt文件向收集呆板人提供有关其网站的说明;这被称为呆板人解除协议。它的工作道理如下:呆板人想要访问网站URL,好比http://www.xusseo.com/。在此之前,它起首查抄http://www.xusseo.com/robots.txt,并找到:User-agent:*Disallow:/ “User-agent:*”表现此部门合用于全部呆板人。“Disallow:/”告诉呆板人它不该该会见网站上的任何页面。使用/robots.txt时有两个紧张的注重事项:呆板人可以忽略你的/robots.txt。出格是扫描收集以查找平安漏洞的恶意软件呆板人以及垃圾邮件发送者使用的电子邮件地址网络器将不予答理。/robots.txt文件是一个公开可用的文件。任何人都可以看到您不但愿呆板人使用的办事器部门。以是不要试图使用/robots.txt来埋没信息。本页的其余部门概述了若何在办事器上使用/robots.txt,以及一些简朴的配方。要相识更多信息。“/robots.txt”文件是一个文本文件,包罗一个或多个记载。每每包罗一个看起来像如许的记载:User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/~joe/在此示例中,解除了三个目次。请注意,您需要为要解除的每个URL前缀单独添加“Disallow”行–您不能在一行中说“Disallow:/cgi-bin//tmp/”。别的,您可能没有记载中的空行,由于它们用于分隔多个记载。另请注重,User-agent或Disallow行不支撑globbing和正则表达式。User-agent字段中的’*’是一个特殊值,意思是“任何机器人”。详细来说,你不能拥有像“User-agent:*bot*”,“Disallow:/tmp/*”或“Disallow:*.gif”如许的行。您要解除的内容取决于您的办事器。未明确克制的全部内容都被视为可以检索的公平游戏。以下是一些例子:从整个办事器中解除全部呆板人User-agent:*Disallow:/许可全部呆板人完全会见User-agent:*Disallow:(或者只是创建一个空的“/robots.txt”文件,或者底子不使用它)从办事器的一部门中解除全部呆板人User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/junk/解除单个呆板人User-agent:BadBotDisallow:/许可单个呆板人User-agent:GoogleDisallow:User-agent:*Disallow:/解除除一个以外的全部文件这当前有点尴尬,由于没有“许可”字段。简朴的方法是将全部文件克制放入一个单独的目次,好比“stuff”,并将一个文件保留在该目次上方的级别中:User-agent:*Disallow:/~joe/stuff/或者,您可以明确克制全部不许可的页面:User-agent:*Disallow:/~joe/junk.htmlDisallow:/~joe/foo.htmlDisallow:/~joe/bar.html robots.txt放在那里简短的回覆:在您的Web办事器的根目次中。当呆板人查找URL的“/robots.txt”文件时,它会从URL中剥离路径组件(来自第一个单斜杠的全部内容),并将“/robots.txt”放在其位置。因此,作为网站全部者,您需要将其放在Web办事器上的正确位置,以便天生此URL。每每,这是您放置网站首要“index.html”接待页面的位置。毕竟是什么,以及若何将文件放在哪里,取决于您的Web办事器软件。请记住使用全文小写的文件名:“robots.txt”,而不是“Robots.TXT。
我要评论