在你網站遇到收錄問題的(de)時(shí)候,可(kě)能會分(fēn)析這(zhè)分(fēn)析那的(de)原因,但首頁分(fēn)析的(de)應該是爬蟲有沒有到你網站的(de)記錄,如果沒有,說明(míng)你的(de)鏈接不過吸引爬蟲;如果有過,你就應該看返回的(de)代碼,然後根據這(zhè)個(gè)再分(fēn)析其它的(de)原因。要找到事情的(de)原因,才能更加有效的(de)解決問題。
假如你要搜索百度的(de)爬蟲,那麽就直接在保存記錄的(de)文本文檔上搜索“Baiduspider”,我們節選以下(xià)一行來(lái)做(zuò)詳細的(de)分(fēn)析:
2011-07-22 15:02:40 CDKKIS111 198.16.12.1 GET /index.html - 80 - 61.135.168.50 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - bbs.szr.com
這(zhè)段IIS日志代碼表示:在2011-07-22 15:02:40 這(zhè)個(gè)時(shí)間,百度搜索引擎的(de)蜘蛛(ip地址爲61.135.168.50,後面的(de)http://www.baidu.com/search/spider.htm是關于Baiduspider+的(de)相關問題)訪問了(le)服務器ip爲198.16.12.1的(de)網站bbs.szr.com,并且抓取了(le)首頁/index.html,該日志記錄保存在 CDKKIS111文件夾。其中,兩個(gè)地方值得(de)說明(míng): 一是各大(dà)搜索引擎爬蟲(蜘蛛)的(de)名稱整理(lǐ)如下(xià),大(dà)家可(kě)以對(duì)号入座:
1. Google爬蟲名稱
1.1 Googlebot:從Google的(de)網站索引和(hé)新聞索引中抓取網頁
1.2 Googlebot-Mobile針對(duì)Google的(de)移動索引抓取網頁
1.3 Googlebot-Image:針對(duì)Google的(de)圖片索引抓取網頁
1.4 Mediapartners-Google:抓取網頁确定 AdSense 的(de)内容。隻有在你的(de)網站上展示 AdSense 廣告的(de)情況下(xià),Google才會使用(yòng)此漫遊器來(lái)抓取您的(de)網站。
1.5 Adsbot-Google:抓取網頁來(lái)衡量 AdWords 目标網頁的(de)質量。隻有在你使用(yòng) Google AdWords 爲你的(de)網站做(zuò)廣告的(de)情況下(xià),Google才會使用(yòng)此漫遊器。
2. 百度(Baidu)爬蟲名稱:Baiduspider
3. 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp
4. 有道(Yodao)蜘蛛名稱:YodaoBot
5. 搜狗(sogou)蜘蛛名稱:sogou spider
6. MSN的(de)蜘蛛名稱:Msnbot
其他(tā)的(de)搜索引擎我們使用(yòng)得(de)很少,就不需要理(lǐ)會了(le)。
二是代碼中的(de)200表示搜索引擎蜘蛛爬行後返回HTTP的(de)狀态代碼,代表成功爬行并抓取。
各個(gè)數字代碼的(de)具體意思參見如下(xià):
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用(yòng)于處理(lǐ),但處理(lǐ)尚未完成。
203 正常;部分(fēn)信息 — 返回的(de)信息隻是一部分(fēn)。
204 正常;無響應 — 已接收請求,但不存在要回送的(de)信息。
3xx 重定向
301 已移動 — 請求的(de)數據具有新的(de)位置且更改是永久的(de)。
302 已找到 — 請求的(de)數據臨時(shí)具有不同 URI。
303 請參閱其它 — 可(kě)在另一 URI 下(xià)找到對(duì)請求的(de)響應,且應使用(yòng) GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用(yòng)代理(lǐ) — 必須通(tōng)過位置字段中提供的(de)代理(lǐ)來(lái)訪問請求的(de)資源。
306 未使用(yòng) — 不再使用(yòng);保留此代碼以便将來(lái)使用(yòng)。
4xx 客戶機中出現的(de)錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也(yě)不需要訪問。
404 找不到 — 服務器找不到給定的(de)資源;文檔不存在。
407 代理(lǐ)認證請求 — 客戶機首先必須使用(yòng)代理(lǐ)認證自身。
410 請求的(de)網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因爲不支持請求實體的(de)格式。
5xx 服務器中出現的(de)錯誤
500 内部錯誤 — 因爲意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的(de)工具。
502 錯誤網關 — 服務器接收到來(lái)自上遊服務器的(de)無效響應。
503 無法獲得(de)服務 — 由于臨時(shí)過載或維護,服務器無法處理(lǐ)請求。
說了(le)這(zhè)麽多(duō),可(kě)能很多(duō)SEO新手朋友還(hái)找不到網站日志該在哪裏看,這(zhè)個(gè)是需要在IIS服務器進行配置的(de)哦,把步驟列出來(lái),想想聰明(míng)的(de)你很快(kuài)就能學會:
第一個(gè)步驟:打開IIS服務器。選擇所要設置的(de)網站屬性。選擇“啓用(yòng)日志記錄”,勾選,選擇“W3C擴展日志文件格式”。
第二步驟:點擊“W3C擴展日志文件格式”後面的(de)“屬性”按鈕,常規選項裏面,選擇新日志計劃爲“每天”,當然也(yě)可(kě)以選擇其他(tā),選擇好保存日志文件的(de)目錄。(注:日志文件最好跟你要設置的(de)網站放在一個(gè)目錄内,避免和(hé)其他(tā)網站日志混淆)
第三個(gè)步驟:選擇高(gāo)級選項。勾選底下(xià)的(de)用(yòng)戶代理(lǐ)(cs(User-Agent))等選項,我一般都将最下(xià)面的(de)三個(gè)選項勾選起來(lái)。這(zhè)樣,你才可(kě)以看到百度等爬蟲的(de)名稱。
第四個(gè)步驟:選擇名爲“主目錄”的(de)選項卡,勾選“記錄訪問”的(de)複選框即可(kě)。這(zhè)樣你的(de)IIS日志就開始正常記錄了(le)。
希望通(tōng)過以上方法能夠讓大(dà)家更好的(de)了(le)解搜索引擎,在優化(huà)的(de)時(shí)候達到事半功倍的(de)效果!