北京网站优化给大家讲解一下关于robots文件的一些问题。搜索引擎蜘蛛访问我们的网站最先查看的一个页面就是网站根目录下的robots.txt的纯文本文件,因为所有搜索引擎都是遵循robots协议的,搜索引擎蜘蛛通过访问你的robots.txt文件,可以判断你的网站哪些内容是允许蜘蛛抓取,哪些内容是不允许蜘蛛抓取的。因此北京SEO优化认为robots文件是很重要的。
Robots.txt文件的作用:
1、屏蔽网站内的死链接。
2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
3、阻止搜索引擎索引网站隐私性的内容。
robots.txt文件的基本语法
第一条是:User-agent,即搜索引擎蜘蛛的名称;
第二条是:Disallow,即要拦截的部分。
第三条是:Allow,允许抓取的部分。
下面是一些常见的语法字符,有什么不了解的可以参考着去写
1、禁止所有搜索引擎蜘蛛访问网站的任何部分
User-agent:*
Disallow:/
2、仅允许所有搜索引擎蜘蛛抓取/zb_users/upload目录下的文件
User-agent:*
Disallow:/
Allow:/zb_users/upload/
3、仅禁止所有搜索引擎蜘蛛抓取/zb_users/upload目录下的文件
User-agent:*
Allow:/
Disallow:/zb_users/upload
常见搜索引擎蜘蛛:
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
360蜘蛛:360Spider
搜狗蜘蛛:SogouNewsSpider
必应蜘蛛:bingbot
robots.txt文件需要注意的最大问题是:必须放置在一个站点的根目录下,而且文件名必须全部小写。