robots这个词对每一位做网站排名优化的人来讲都很熟悉,但你了解知道全部有关robots文件的常识了吗?可以来看看博久网络网站优化专家下面要给大伙介绍的robots文件潜规则。
有关robots文件潜规则做网站优化不能不了解的robots文件http://www.taobao.com/robots.txt)
2、不允许出现多条user-agent的记录
一份“/robots.txt”文档中不允许出现多条包括“user-agent: *”的记录(但允许没此记录)。
3、allow和disallow的顺序
大多数状况下,想要兼容所有些机器人,就应当将allow指令放在disallow指令的前面,比如做网站优化不能不了解的robots文件
Disallow: /a/
注意不要忘记“a”前面的“/”
依据“/”的意义,对于只允许某搜索引擎,有的robots.txt会如此写
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
如此用百度的robots工具测试也是OK的,但从百度自己家里商品,百度问答的robots来看,更多的是写成
User-agent: Baiduspider
Allow: ?/
User-agent: *
Disallow: /
我其实在想,可能“/”正确的表述应该是"进入该目录"的意思,要不然Allow: ?/就不好理解了
在指示行末尾加注的问题
在“/robots.txt”文件中,凡以“#”开头的行,均被视为注释内容,这和unix中的惯例是一样的。比如做网站优化不能不了解的robots文件
Disallow: /abc.htm
会拦截“http://www.example.com/abc.htm”
却会允许http://www.example.com/Abc.htm
所以在IIS服务器可能出现的 很多 大小写目录问题,可以通过此办法得到圆满解决。
假如页面中包括了多个相同种类型meta标签,spider会累加内容取值
对于下面两条语句来讲做网站优化不能不了解的robots文件
当内容取值冲突的时候,谷歌和百度等大部分搜索引擎会采纳限制性最强的参数
比如,假如页面中包括如下meta标签做网站优化不能不了解的robots文件做网站优化不能不了解的robots文件转载来源: