robots.txt的设置

2.jpg
真是受不鸟百度蜘蛛了...

一时兴起

闲来没事上百度搜了一下自己的站
3.PNG
哦哦,没有镜像站
没有人气哪来的镜像站
葵鼠又是啥
嗯..很满意
个鬼呀
1.PNG
你这敢再随意点吗QWQ
本着完美主义的精神
开始修改robots.txt了

ROBOTS.TXT是啥

额。。。我也不知道
度娘肯定知道!

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

开始吧

Disallow很明显就是不能爬哪里
有这么几种写法

Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;
Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;
如果Disallow记录为空,说明该网站的所有部分都允许被访问。

据说在robots.txt里必须要有disallow呢

User-agent规定哪些蜘蛛可以来啦

规定所有蜘蛛:User-agent:*;
规定某一个蜘蛛:User-agent:BaiduSpider

大概就这些?

好方便..

我去..还有一键生成的=.=
http://tool.chinaz.com/robots/
可恶啊,没早发现
配置好了就等蜘蛛再来爬一下了
溜了溜了


发表评论

  • OωO
  • |´・ω・)ノ
  • ヾ(≧∇≦*)ゝ
  • (☆ω☆)
  • (╯‵□′)╯︵┴─┴
  •  ̄﹃ ̄
  • (/ω\)
  • ∠(ᐛ」∠)_
  • (๑•̀ㅁ•́ฅ)
  • →_→
  • ୧(๑•̀⌄•́๑)૭
  • ٩(ˊᗜˋ*)و
  • (ノ°ο°)ノ
  • (´இ皿இ`)
  • ⌇●﹏●⌇
  • (ฅ´ω`ฅ)
  • (╯°A°)╯︵○○○
  • φ( ̄∇ ̄o)
  • (งᵒ̌皿ᵒ̌)ง⁼³₌₃
  • (ó﹏ò。)
  • Σ(っ°Д°;)っ
  • ╮(╯▽╰)╭
  • o(*
  • >﹏<
  • (。•ˇ‸ˇ•。)
  • 泡泡
  • 颜文字

*

已有 3 条评论
    1. @某昴实际上并不难……不过这好像并不能解决我一开始要解决的问题233