當前位置:首頁 > 建站常識 > 列表

網站日志文件如何分(fēn)析搜索引擎爬蟲

點擊:時(shí)間:2018/8/25關鍵詞:上海網頁設計 上海網站建設
在你網站遇到收錄問題的(de)時(shí)候,可(kě)能會分(fēn)析這(zhè)分(fēn)析那的(de)原因,但首頁分(fēn)析的(de)應該是爬蟲有沒有到你網站的(de)記錄,如果沒有,說明(míng)你的(de)鏈接不過吸引爬蟲;如果有過,你就應該看返回的(de)代碼,然後根據這(zhè)個(gè)再分(fēn)析其它的(de)原因。要找到事情的(de)原因,才能更加有效的(de)解決問題。 假如你要搜索百度的(de)爬

在你網站遇到收錄問題的(de)時(shí)候,可(kě)能會分(fēn)析這(zhè)分(fēn)析那的(de)原因,但首頁分(fēn)析的(de)應該是爬蟲有沒有到你網站的(de)記錄,如果沒有,說明(míng)你的(de)鏈接不過吸引爬蟲;如果有過,你就應該看返回的(de)代碼,然後根據這(zhè)個(gè)再分(fēn)析其它的(de)原因。要找到事情的(de)原因,才能更加有效的(de)解決問題。 

   假如你要搜索百度的(de)爬蟲,那麽就直接在保存記錄的(de)文本文檔上搜索“Baiduspider”,我們節選以下(xià)一行來(lái)做(zuò)詳細的(de)分(fēn)析:

  2011-07-22 15:02:40 CDKKIS111 198.16.12.1  GET /index.html - 80 - 61.135.168.50 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - bbs.szr.com

  這(zhè)段IIS日志代碼表示:在2011-07-22 15:02:40 這(zhè)個(gè)時(shí)間,百度搜索引擎的(de)蜘蛛(ip地址爲61.135.168.50,後面的(de)http://www.baidu.com/search/spider.htm是關于Baiduspider+的(de)相關問題)訪問了(le)服務器ip爲198.16.12.1的(de)網站bbs.szr.com,并且抓取了(le)首頁/index.html,該日志記錄保存在 CDKKIS111文件夾。其中,兩個(gè)地方值得(de)說明(míng):  一是各大(dà)搜索引擎爬蟲(蜘蛛)的(de)名稱整理(lǐ)如下(xià),大(dà)家可(kě)以對(duì)号入座:

  1. Google爬蟲名稱

  1.1 Googlebot:從Google的(de)網站索引和(hé)新聞索引中抓取網頁

  1.2 Googlebot-Mobile針對(duì)Google的(de)移動索引抓取網頁

  1.3 Googlebot-Image:針對(duì)Google的(de)圖片索引抓取網頁

  1.4 Mediapartners-Google:抓取網頁确定 AdSense 的(de)内容。隻有在你的(de)網站上展示 AdSense 廣告的(de)情況下(xià),Google才會使用(yòng)此漫遊器來(lái)抓取您的(de)網站。

  1.5 Adsbot-Google:抓取網頁來(lái)衡量 AdWords 目标網頁的(de)質量。隻有在你使用(yòng) Google AdWords 爲你的(de)網站做(zuò)廣告的(de)情況下(xià),Google才會使用(yòng)此漫遊器。

  2. 百度(Baidu)爬蟲名稱:Baiduspider

  3. 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp

  4. 有道(Yodao)蜘蛛名稱:YodaoBot

  5. 搜狗(sogou)蜘蛛名稱:sogou spider

  6. MSN的(de)蜘蛛名稱:Msnbot

  其他(tā)的(de)搜索引擎我們使用(yòng)得(de)很少,就不需要理(lǐ)會了(le)。

       二是代碼中的(de)200表示搜索引擎蜘蛛爬行後返回HTTP的(de)狀态代碼,代表成功爬行并抓取。

  各個(gè)數字代碼的(de)具體意思參見如下(xià):

  2xx 成功

  200 正常;請求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用(yòng)于處理(lǐ),但處理(lǐ)尚未完成。

  203 正常;部分(fēn)信息 — 返回的(de)信息隻是一部分(fēn)。

  204 正常;無響應 — 已接收請求,但不存在要回送的(de)信息。

  3xx 重定向

  301 已移動 — 請求的(de)數據具有新的(de)位置且更改是永久的(de)。

  302 已找到 — 請求的(de)數據臨時(shí)具有不同 URI。

  303 請參閱其它 — 可(kě)在另一 URI 下(xià)找到對(duì)請求的(de)響應,且應使用(yòng) GET 方法檢索此響應。

  304 未修改 — 未按預期修改文檔。

  305 使用(yòng)代理(lǐ) — 必須通(tōng)過位置字段中提供的(de)代理(lǐ)來(lái)訪問請求的(de)資源。

  306 未使用(yòng) — 不再使用(yòng);保留此代碼以便将來(lái)使用(yòng)。

  4xx 客戶機中出現的(de)錯誤

  400 錯誤請求 — 請求中有語法問題,或不能滿足請求。

  401 未授權 — 未授權客戶機訪問數據。

  402 需要付款 — 表示計費系統已有效。

  403 禁止 — 即使有授權也(yě)不需要訪問。

  404 找不到 — 服務器找不到給定的(de)資源;文檔不存在。

  407 代理(lǐ)認證請求 — 客戶機首先必須使用(yòng)代理(lǐ)認證自身。

  410 請求的(de)網頁不存在(永久);

  415 介質類型不受支持 — 服務器拒絕服務請求,因爲不支持請求實體的(de)格式。

  5xx 服務器中出現的(de)錯誤

  500 内部錯誤 — 因爲意外情況,服務器不能完成請求。

  501 未執行 — 服務器不支持請求的(de)工具。

  502 錯誤網關 — 服務器接收到來(lái)自上遊服務器的(de)無效響應。

  503 無法獲得(de)服務 — 由于臨時(shí)過載或維護,服務器無法處理(lǐ)請求。

   說了(le)這(zhè)麽多(duō),可(kě)能很多(duō)SEO新手朋友還(hái)找不到網站日志該在哪裏看,這(zhè)個(gè)是需要在IIS服務器進行配置的(de)哦,把步驟列出來(lái),想想聰明(míng)的(de)你很快(kuài)就能學會:

    第一個(gè)步驟:打開IIS服務器。選擇所要設置的(de)網站屬性。選擇“啓用(yòng)日志記錄”,勾選,選擇“W3C擴展日志文件格式”。

    第二步驟:點擊“W3C擴展日志文件格式”後面的(de)“屬性”按鈕,常規選項裏面,選擇新日志計劃爲“每天”,當然也(yě)可(kě)以選擇其他(tā),選擇好保存日志文件的(de)目錄。(注:日志文件最好跟你要設置的(de)網站放在一個(gè)目錄内,避免和(hé)其他(tā)網站日志混淆)

    第三個(gè)步驟:選擇高(gāo)級選項。勾選底下(xià)的(de)用(yòng)戶代理(lǐ)(cs(User-Agent))等選項,我一般都将最下(xià)面的(de)三個(gè)選項勾選起來(lái)。這(zhè)樣,你才可(kě)以看到百度等爬蟲的(de)名稱。

    第四個(gè)步驟:選擇名爲“主目錄”的(de)選項卡,勾選“記錄訪問”的(de)複選框即可(kě)。這(zhè)樣你的(de)IIS日志就開始正常記錄了(le)。

    希望通(tōng)過以上方法能夠讓大(dà)家更好的(de)了(le)解搜索引擎,在優化(huà)的(de)時(shí)候達到事半功倍的(de)效果!

預約建站
免費提供網站優化(huà)
領取關鍵詞