Robot.txt用法详解

   

为什么设置robots.txt

在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。

robots.txt放置位置

robots.txt文件应该放置在网站根目录下

robots.txt文件的写法

User-agent: * 这里的代表的所有的搜索引擎种类,是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg

.jpgDisallow:/ab/adc.htmlabadc.htmlAllow:/cgibin/ cgibinAllow:.htm

仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

robots.txt路径问题

在蜘蛛协议中,Allow和Disallow后面可以跟两种路径形式,即链接、相对链接。链接就是完整的URL形式,而相对链接只针对根目录。这是记住。

斜杠问题

Disallow:/seojc表示禁止抓取seoic这个目录下的所有文件,如:seojc.1.html、seojc/rmjc.php都不允许抓取;
Disallow:/seojc/表示禁止抓取seojc这个目录下的文件,即允许抓取seojc.1.html,但是不允许抓取seojc/rmjc.php。

robots.txt的顺序

在蜘蛛协议中,Disallow与Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。

发表评论