為了記錄我們網(wǎng)站的情況特意制作了了一個IIS日志也叫網(wǎng)站日志,用來記錄網(wǎng)站搜索引擎蜘蛛爬取的情況,可有效的根據(jù)日志判斷出搜索引擎蜘蛛每天來我們網(wǎng)站的各個信息,例如:網(wǎng)站次數(shù)、時間、爬去的頁面和返回的HTTP狀態(tài)碼。下面我兩點劃分,用來分析和了解網(wǎng)站日志。
一、各大搜索引擎的蜘蛛名稱:
百度(Baidu)爬蟲名稱(Baiduspider)
谷歌(Google)爬蟲名稱(Googlebot)
雅虎(Yahoo)爬蟲名稱(Yahoo Slurp)
有道(Yodao)蜘蛛名稱(YodaoBot)
搜狗(sogou)蜘蛛名稱(sogou spider)
MSN的蜘蛛名稱:msnbot
二、IIS日志手動分析:
案例日志:61.135.168.22 – – [11/Jan/2015:04:02:45 +0800] “GET /thread-7303-1-1.html HTTP/1.1” 200 8450 “-” “Baiduspider(+http://www.baidu.com/search/spider.htm)”
分析:
1、61.135.168.22 是訪問了是服務(wù)器IP為這個的網(wǎng)站;
2、11/Jan/2015:04:02:45 表示蜘蛛爬行時間;
3、GET /thread-7303-1-1.html HTTP,表示蜘蛛抓取了這個頁面;
4、200 狀態(tài)碼表示蜘蛛抓取頁面成功;404表示蜘蛛抓取頁面失敗;
5、8450 表示此次抓取了8450個字節(jié);
6、Baiduspider(+http://www.baidu.com/search/spider.htm)表示百度蜘蛛的名稱。
三、搜索引擎蜘蛛爬尋返回代碼
HTTP協(xié)議狀態(tài)碼的含義,協(xié)議狀態(tài)sc-status,是服務(wù)器日記擴(kuò)展屬性的一項,下面是各狀態(tài)碼含義:
"100" :Continue,客戶必須繼續(xù)發(fā)出請求。
"101" :witching Protocols,客戶要求服務(wù)器根據(jù)請求轉(zhuǎn)換HTTP協(xié)議版本。
"200" :OK,交易成功。
"201" :Created,提示知道新文件的URL。
"202" :Accepted,接受和處理、但處理未完成。
"203" :Non-Authoritative Information,返回信息不確定或不完整。
"204" :No Content,請求收到,但返回信息為空。
"205" :Reset Content,服務(wù)器完成了請求,用戶代理必須復(fù)位當(dāng)前已經(jīng)瀏覽過的文件。
"206" :Partial Content,服務(wù)器已經(jīng)完成了部分用戶的GET請求。
"300" :Multiple Choices,請求的資源可在多處得到。
"301" :Moved Permanently,刪除請求數(shù)據(jù)。
"302" :Found,在其他地址發(fā)現(xiàn)了請求數(shù)據(jù)。
"303" :See Other,建議客戶訪問其他URL或訪問方式。
"304" :Not Modified,客戶端已經(jīng)執(zhí)行了GET,但文件未變化。
"305" :Use Proxy,求的資源必須從服務(wù)器指定的地址得到。
"306" :前一版本HTTP中使用的代碼,現(xiàn)行版本中不再使用。
"307" :Temporary Redirect,申明請求的資源臨時性刪除。
"400" :Bad Request,錯誤請求,如語法錯誤。
"401" :Unauthorized,請求授權(quán)失敗。
"402" :Payment Required,保留有效ChargeTo頭響應(yīng)。
"403" :Forbidden,請求不答應(yīng)。
"404" :Not Found,沒有發(fā)現(xiàn)文件、查詢或URl。
"405" :Method Not Allowed,用戶在Request-Line字段定義的方法不答應(yīng)。
"406" :Not Acceptable,根據(jù)用戶發(fā)送的Accept拖,請求資源不可訪問。
"407" :Proxy Authentication Required,類似401,用戶必須首先在代理服務(wù)器上得到授權(quán)。
"408" :Request Time-out,客戶端沒有在用戶指定的餓時間內(nèi)完成請求。
"409" :Conflict,對當(dāng)前資源狀態(tài),請求不能完成。
"410" :Gone,服務(wù)器上不再有此資源且無進(jìn)一步的參考地址。
"411" :Length Required,服務(wù)器拒絕用戶定義的Content-Length屬性請求。
"412" :Precondition Failed,一個或多個請求頭字段在當(dāng)前請求中錯誤。
"413" :Request Entity Too Large,請求的資源大于服務(wù)器答應(yīng)的大小。
"414" :Request-URI Too Large,請求的資源URL長于服務(wù)器答應(yīng)的長度。
"415" :Unsupported Media Type,請求資源不支持請求項目格式。
"416" :Requested range not satisfiable,請求中包含Range請求頭字段,在當(dāng)前請求資源范圍內(nèi)沒有range指示值,請求也不包含If-Range請求頭字段。
"417" :Expectation Failed,服務(wù)器不滿足請求Expect頭字段指定的期望值,假如是代理服務(wù)器。
"500" :Internal Server Error,服務(wù)器產(chǎn)生內(nèi)部錯誤。
"501" :Not Implemented,服務(wù)器不支持請求的函數(shù)。
"502" :Bad Gateway,服務(wù)器暫時不可用,有時是為了防止發(fā)生系統(tǒng)過載。
"503" :Service Unavailable,服務(wù)器過載或暫停維修。
"504" :Gateway Time-out,關(guān)口過載,服務(wù)器使用另一個關(guān)口或服務(wù)來響應(yīng)用戶,等待時間設(shè)定值較長。
"505" :HTTP Version not supported,服務(wù)器不支持或拒絕支請求頭中指定的HTTP版本。
雅博博客點評:
網(wǎng)站的日志,我們每天都要去看,了解蜘蛛來我們網(wǎng)站抓取頁面的情況,那些頁面是蜘蛛抓取不到的,為什么抓取不到?根據(jù)IIS日志的反應(yīng)情況,對我們的空間的某些事情和問題提前進(jìn)行預(yù)警,這些在IIS日志中會第一時間反映出來,
都可以通過網(wǎng)站日志分析,查找原因,解決問題。