robots.txt寫法大(dà)全和(hé)robots.txt語法的(de)作用(yòng)
1 如果允許所有搜索引擎訪問網站的(de)所有部分(fēn)的(de)話(huà) 我們可(kě)以建立一個(gè)空白的(de)文本文檔,命名爲robots.txt放在網站的(de)根目錄下(xià)即可(kě)。
robots.txt寫法如下(xià):
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
2 如果我們禁止所有搜索引擎訪問網站的(de)所有部分(fēn)的(de)話(huà)
robots.txt寫法如下(xià):
User-agent: *
Disallow: /
3 如果我們需要某一個(gè)搜索引擎的(de)抓取的(de)話(huà),比如百度,禁止百度索引我們的(de)網站的(de)話(huà)
robots.txt寫法如下(xià):
User-agent: Baiduspider
Disallow: /
4 如果我們禁止Google索引我們的(de)網站的(de)話(huà),其實跟示例3一樣,就是User-agent:頭文件的(de)蜘蛛名字改成谷歌(gē)的(de)Googlebot
robots.txt寫法如下(xià):
User-agent: Googlebot
Disallow: /
5 如果我們禁止除Google外的(de)一切搜索引擎索引我們的(de)網站話(huà)
robots.txt寫法如下(xià):
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
6 如果我們禁止除百度外的(de)一切搜索引擎索引我們的(de)網站的(de)話(huà)
robots.txt寫法如下(xià):
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
7 如果我們需要禁止蜘蛛訪問某個(gè)目錄,比如禁止admin、css、images等目錄被索引的(de)話(huà)
robots.txt寫法如下(xià):
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
8 如果我們允許蜘蛛訪問我們網站的(de)某個(gè)目錄中的(de)某些特定網址的(de)話(huà)
robots.txt寫法如下(xià):
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
9 我們看某些網站的(de)robots.txt裏的(de)Disallow或者Allow裏會看很多(duō)的(de)符号,比如問号星号什(shén)麽的(de),如果使用(yòng)“*”,主要是限制訪問某個(gè)後綴的(de)域名,禁止訪問/html/目錄下(xià)的(de)所有以".htm"爲後綴的(de)URL(包含子目錄)。
robots.txt寫法如下(xià):
User-agent: *
Disallow: /html/*.htm
10 如果我們使用(yòng)“$”的(de)話(huà)是僅允許訪問某目錄下(xià)某個(gè)後綴的(de)文件
robots.txt寫法如下(xià):
User-agent: *
Allow: .asp$
Disallow: /
11 如果我們禁止索引網站中所有的(de)動态頁面(這(zhè)裏限制的(de)是有“?”的(de)域名,例如index.asp?id=1)
robots.txt寫法如下(xià):
User-agent: *
Disallow: /*?*
有些時(shí)候,我們爲了(le)節省服務器資源,需要禁止各類搜索引擎來(lái)索引我們網站上的(de)圖片,這(zhè)裏的(de)辦法除了(le)使用(yòng)“Disallow: /images/”這(zhè)樣的(de)直接屏蔽文件夾的(de)方式之外,還(hái)可(kě)以采取直接屏蔽圖片後綴名的(de)方式。
12 如果我們禁止Google搜索引擎抓取我們網站上的(de)所有圖片(如果你的(de)網站使用(yòng)其他(tā)後綴的(de)圖片名稱,在這(zhè)裏也(yě)可(kě)以直接添加)
robots.txt寫法如下(xià):
User-agent: Googlebot
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
13 如果我們禁止百度搜索引擎抓取我們網站上的(de)所有圖片的(de)話(huà)
robots.txt寫法如下(xià):
User-agent: Baidus
pider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
14 除了(le)百度之外和(hé)Google之外,禁止其他(tā)搜索引擎抓取你網站的(de)圖片(注意,在這(zhè)裏爲了(le)讓各位看的(de)更明(míng)白,因此使用(yòng)一個(gè)比較笨的(de)辦法——對(duì)于單個(gè)搜索引擎單獨定義。)
robots.txt寫法如下(xià):
User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
15 僅僅允許百度抓取網站上的(de)“JPG”格式文件(其他(tā)搜索引擎的(de)辦法也(yě)和(hé)這(zhè)個(gè)一樣,隻是修改一下(xià)搜索引擎的(de)蜘蛛名稱即可(kě))
robots.txt寫法如下(xià):
User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
16 僅僅禁止百度抓取網站上的(de)“JPG”格式文件
robots.txt寫法如下(xià):
User-agent: Baiduspider
Disallow: .jpg$
17 如果 ? 表示一個(gè)會話(huà) ID,您可(kě)排除所有包含該 ID 的(de)網址,确保 Googlebot 不會抓取重複的(de)網頁。但是,以 ? 結尾的(de)網址可(kě)能是您要包含的(de)網頁版本。在此情況下(xià),沃恩可(kě)将與 Allow 指令配合使用(yòng)。
robots.txt寫法如下(xià):
User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/ *?
一行将攔截包含 ? 的(de)網址(具體而言,它将攔截所有以您的(de)域名開頭、後接任意字符串,然後是問号 (?),而後又是任意字符串的(de)網址)。Allow: /*?$ 一行将允許包含任何以 ? 結尾的(de)網址(具體而言,它将允許包含所有以您的(de)域名開頭、後接任意字符串,然後是問号 (?),問号之後沒有任何字符的(de)網址)。
18 如果我們想禁止搜索引擎對(duì)一些目錄或者某些URL訪問的(de)話(huà),可(kě)以截取部分(fēn)的(de)名字
robots.txt寫法如下(xià):
User-agent:*
Disallow: /plus/feedback.php?
以上内容供大(dà)家參考下(xià)即可(kě)。