MENU

robots.txt的设置

March 11, 2017 • 闲扯,代码

2.jpg
真是受不鸟百度蜘蛛了...

一时兴起

闲来没事上百度搜了一下自己的站
3.PNG
哦哦,没有镜像站
没有人气哪来的镜像站
葵鼠又是啥
嗯..很满意
个鬼呀
1.PNG
你这敢再随意点吗QWQ
本着完美主义的精神
开始修改robots.txt了

ROBOTS.TXT是啥

额。。。我也不知道
度娘肯定知道!

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

开始吧

Disallow很明显就是不能爬哪里
有这么几种写法

Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;
Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;
如果Disallow记录为空,说明该网站的所有部分都允许被访问。

据说在robots.txt里必须要有disallow呢

User-agent规定哪些蜘蛛可以来啦

规定所有蜘蛛:User-agent:*;
规定某一个蜘蛛:User-agent:BaiduSpider

大概就这些?

好方便..

我去..还有一键生成的=.=
http://tool.chinaz.com/robots/
可恶啊,没早发现
配置好了就等蜘蛛再来爬一下了
溜了溜了

Archives QR Code Tip
QR Code for this page
Tipping QR Code
Leave a Comment

3 Comments
  1. Σ( ° △ °|||)︴一直没管robots文件,因为不知道是啥,原来这么复杂

    1. @某昴实际上并不难……不过这好像并不能解决我一开始要解决的问题233

    2. @REUS2333这个问题的确挺难解决的