网站Robots文件的标准写法

阅读() @2018-07-15 14:13:22
网站robots文件的标准写法,点击右下角全屏按钮,即可观看高清视频!

Robots文件中的特殊符号的作用和意思
 

*表示所有搜索引擎,用于指定蜘蛛使用;
 

~表示以某字符串开头;
 

$表示以某字符串结尾;
 

/表示当前目录下的所有内容。

格式

User-agent: 蜘蛛名称;

Disallow: 内容名称;

Allow:内容名称;

参数说明

User-agent 指定搜索引擎蜘蛛名称;

Disallow要禁止抓取的内容;

Allow允许抓取的内容。

Robots文件写法参考

指定蜘蛛:User-agent:* 。这里的*代表的所有的搜索引擎种类,*是一个通配符。

禁止写法

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录;

Disallow: /admin 这里定义是禁止爬寻admin目录;

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录);

Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址;

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

允许写法

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录;

Allow: /tmp 这里定义是允许爬寻tmp的整个目录;

Allow: .htm$ 仅允许访问以".htm"为后缀的URL;

Allow: .gif$ 允许抓取网页和gif格式图片。
 

各大搜索引擎蜘蛛的名称写法
 

1、百度蜘蛛:Baiduspider
 

百度蜘蛛名称为Baiduspider日志中还发现了Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。
 

2、谷歌蜘蛛:Googlebot    ,Googlebot-Mobile,看名字是抓取wap内容的
 

3、360蜘蛛:360Spider,这个家伙比较勤劳
 

4、SOSO蜘蛛:Sosospider,比360更加勤劳
 

5、雅虎蜘蛛:Yahoo! Slurp China
 

6、有道蜘蛛:YoudaoBot
 

7、搜狗蜘蛛:Sogou News Spider

搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,等等、、、、、、
 

8、MSN蜘蛛:msnbot,msnbot-media
 

9、必应蜘蛛:bingbot
 

10、一搜蜘蛛:YisouSpider
 

11、Alexa蜘蛛:ia_archiver
 

12、宜搜蜘蛛:EasouSpider
 

13、即刻蜘蛛:JikeSpider
 

14、一淘网蜘蛛:EtaoSpider


 

微信二维码
  • 赵一鸣SEO高转化率研究QQ群:129515828
  • 立即加入