網(wǎng)站空間IIS日志分析
一個(gè)網(wǎng)站一直以來都有個(gè)問題困擾著他們,這個(gè)網(wǎng)站的注冊(cè)一共分為4個(gè)步驟就是通過四次下一步就能夠完成網(wǎng)站的注冊(cè),他們發(fā)現(xiàn)這個(gè)注冊(cè)頁面每10000個(gè)人都來到了注冊(cè)的第一步,但是到第四個(gè)步驟完成注冊(cè)的人卻只有
一個(gè)網(wǎng)站一直以來都有個(gè)問題困擾著他們,這個(gè)網(wǎng)站的注冊(cè)一共分為4個(gè)步驟就是通過四次下一步就能夠完成網(wǎng)站的注冊(cè),他們發(fā)現(xiàn)這個(gè)注冊(cè)頁面每10000個(gè)人都來到了注冊(cè)的第一步,但是到第四個(gè)步驟完成注冊(cè)的人卻只有幾十個(gè),這個(gè)是一個(gè)非常大的落差,但是他們一開始也沒有太注意,認(rèn)為可能只是根據(jù)人的習(xí)慣不同而導(dǎo)致的,但是在一次日志分析中意外發(fā)現(xiàn)有某一個(gè)頁面出現(xiàn)了90000多次的404狀態(tài)碼,經(jīng)過查看之后發(fā)現(xiàn)這個(gè)頁面正好就是這個(gè)注冊(cè)頁面的第二個(gè)步驟相應(yīng)的頁面,因?yàn)槌绦虺霈F(xiàn)了一些問題導(dǎo)致很多時(shí)候點(diǎn)擊下一步的時(shí)候出現(xiàn)錯(cuò)誤導(dǎo)致無法完成注冊(cè)。可以想象這么多用戶流失是一個(gè)多么大的損失,而這些都是流量統(tǒng)計(jì)工具無法找到的,如果能夠及時(shí)的分析網(wǎng)站的日志就能夠早點(diǎn)發(fā)現(xiàn)這個(gè)問題避免損失的出現(xiàn)。
什么是網(wǎng)站日志?
網(wǎng)站日志是記錄web 服務(wù)器接收處理請(qǐng)求以及運(yùn)行時(shí)錯(cuò)誤等各種原始信息的以.log 結(jié)尾的文件。
用我自己的理解就是我們可以通俗的認(rèn)為他就是一個(gè)流水賬,就像是你今天早上吃了啥,誰來了你家做客等等統(tǒng)統(tǒng)記下來的一本流水賬,只不過這本流水賬使用的是自己的方式記錄的,我們也許看起來不是那么方便,如果你對(duì)服務(wù)器返回代碼比較熟悉的話是沒有多大問題,如果你對(duì)代碼不熟悉那就頭痛了,那么我們這個(gè)時(shí)候就要用到IIS 日志分析工具了。有了IIS 日志分析工具我們就能夠很直觀了了解到今天自己的網(wǎng)站發(fā)生了哪些事情,是否有蜘蛛來過。
IIS 日志文件詳解
找到日志打開,發(fā)現(xiàn)日志的前幾行如下
#Software: Microsoft Internet Information Services 5.1 //iis版本 #Version: 1.0 //版本 #Date: 2010-07-30 00:53:58 //創(chuàng)建時(shí)間 #Fields: date time c-ip cs-username s-sitename s-computername s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken cs-version cs-host
cs(User-Agent) cs(Cookie) cs(Referer) //日志格式
下面的日志我在本地上測(cè)試的,擴(kuò)展屬性全部選中。 2010-07-30 01:06:43
192.168.0.102 - W3SVC1 MGL 192.168.0.102 80 GET /css/rss.xslt - 304 0 140 358 0 HTTP/1.1 192.168.0.102
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; 360SE) ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM -
下面對(duì)日志格式進(jìn)行詳細(xì)解答。 Fields: date 2010-07-30 爬行日期 time 01:06:43 時(shí)間 s-sitename W3SVC1 服務(wù)器名稱 s-computername MGL 網(wǎng)站名稱 s-ip 192.168.0.102 網(wǎng)站IP cs-method GET 獲取方法 cs-uri-stem /css/rss.xslt 文件的URL cs-uri-query - ?后面的參數(shù) s-port 80 服務(wù)器端口 cs-username - 用戶名 c-ip 192.168.0.102 訪問者(蜘蛛)ip cs-version HTTP/1.1 協(xié)議版本 cs(User-Agent)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; InfoPath.2; 360SE) 用戶代理,即用戶所用的瀏覽器(這個(gè)最重要) cs(Cookie)
ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM 發(fā)送或接收的 Cookie 內(nèi)容(如果有) cs(Referer) - 選擇該選項(xiàng)可以記錄用戶訪問的前一個(gè)站點(diǎn)。此站點(diǎn)提供與當(dāng)前站點(diǎn)的鏈接。 cs-host 192.168.0.102 主機(jī)頭的內(nèi)容。我本地訪問的是IP ,這個(gè)應(yīng)該是網(wǎng)站域名。
,sc-status 304 協(xié)議狀態(tài)(200是正常的 404 是找不到文件,304未改變。更多請(qǐng)查看IIS 返回日志詳解) sc-substatus 0 協(xié)議子狀態(tài) sc-win32-status 0 win32狀態(tài) sc-bytes 140 發(fā)送的字節(jié)數(shù) cs-bytes 358 接受的字節(jié)數(shù) time-taken 0 所用時(shí)間 200 0 0 4600 316 140返回200正常,4600發(fā)送的字節(jié)數(shù),316接受的字節(jié)數(shù) 140所用時(shí)間。這個(gè)時(shí)間應(yīng)該是毫秒級(jí)別的。
下面介紹幾個(gè)常見的百度蜘蛛IP
IIS 日記上的百度蜘蛛IP 為例:
123.125.68.*這個(gè)蜘蛛經(jīng)常來, 別的來的少, 表示網(wǎng)站可能要進(jìn)入沙盒了,或被者降權(quán)。
220.181.68.*每天這個(gè)IP 段只增不減很有可能進(jìn)沙盒或K 站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP 造訪,準(zhǔn)備抓取你東西。
121.14.89.*這個(gè)ip 段作為度過新站考察期。
203.208.60.*這個(gè)ip 段出現(xiàn)在新站及站點(diǎn)有不正常現(xiàn)象后。
210.72.225.*這個(gè)ip 段不間斷巡邏各站。
125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO 綜合檢測(cè)造成的。
220.181.108.95這個(gè)是百度抓取首頁的專用IP ,如是220.181.108段的話,基本來說你的網(wǎng)站會(huì)天天隔夜快照 220.181.108.92 同上98抓取首頁,可能還會(huì)抓取其他 (不是指內(nèi)頁)220.181段屬于權(quán)重IP 段此段爬過的文章或首頁基本24小時(shí)放出來。
123.125.71.106 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.91屬于綜合的,主要抓取首頁和內(nèi)頁或其他,屬于權(quán)重IP 段,爬過的文章或首頁基本24小時(shí)放出來。
220.181.108.75重點(diǎn)抓取更新文章的內(nèi)頁達(dá)到90,8抓取首頁,2其他。權(quán)重IP 段,爬過的文章或首頁基本24小時(shí)放出來。
220.181.108.86專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.95 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。
123.125.71.97 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.89專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
,220.181.108.94專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.97專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.77 專用抓首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.117 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會(huì)很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.83專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
注:以上IP 尾數(shù)還有很多,但段位一樣的123.125.71.*段IP 代表抓取內(nèi)頁收錄的權(quán)重比較低. 可能由于你采集文章或拼文章暫時(shí)被收錄但不放出來.(意思也就是說待定) 。
220.181.108.*段IP 主要是抓取首頁占80,內(nèi)頁占30,這此爬過的文章或首頁
以上只能當(dāng)作參考千萬被完全當(dāng)真,如果還看到一些不知名的類似百度IP 蜘蛛的話可能是一些(站長工具)的模擬蜘蛛IP ,其次要說的一點(diǎn)是網(wǎng)站空間也是影響網(wǎng)站的一個(gè)主要的原因,選擇一個(gè)好的VPS 主機(jī)能有效的解決很多網(wǎng)站的不穩(wěn)定問題。