robots.txt的设置

March 11, 2017 · 闲扯 · 代码 · 345次阅读

2.jpg
真是受不鸟百度蜘蛛了...

一时兴起

闲来没事上百度搜了一下自己的站
3.PNG
哦哦,没有镜像站
没有人气哪来的镜像站
葵鼠又是啥
嗯..很满意
个鬼呀
1.PNG
你这敢再随意点吗QWQ
本着完美主义的精神
开始修改robots.txt了

ROBOTS.TXT是啥

额。。。我也不知道
度娘肯定知道!

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

开始吧

Disallow很明显就是不能爬哪里
有这么几种写法

Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;
Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;
如果Disallow记录为空,说明该网站的所有部分都允许被访问。

据说在robots.txt里必须要有disallow呢

User-agent规定哪些蜘蛛可以来啦

规定所有蜘蛛:User-agent:*;
规定某一个蜘蛛:User-agent:BaiduSpider

大概就这些?

好方便..

我去..还有一键生成的=.=
http://tool.chinaz.com/robots/
可恶啊,没早发现
配置好了就等蜘蛛再来爬一下了
溜了溜了

喝杯水

标签:robot.txt

最后编辑于:2017/03/19 10:01

添加新评论

  1. 2017-03-12 18:37

    Σ( ° △ °|||)︴一直没管robots文件,因为不知道是啥,原来这么复杂

    回复
    1. 2017-03-12 18:55

      实际上并不难……不过这好像并不能解决我一开始要解决的问题233

      回复
      1. 2017-03-17 15:15

        2333这个问题的确挺难解决的

        回复

CATEGORIES

控制面板