總結:網(wǎng)站的SEO優(yōu)化過(guò)程中怎樣分析網(wǎng)站日志?
優(yōu)采云 發(fā)布時(shí)間: 2022-12-20 17:58總結:網(wǎng)站的SEO優(yōu)化過(guò)程中怎樣分析網(wǎng)站日志?
在網(wǎng)站SEO優(yōu)化過(guò)程中,不可避免地要對網(wǎng)站日志進(jìn)行分析。 對網(wǎng)站日志的分析診斷,就像治療網(wǎng)站的病一樣。 通過(guò)對網(wǎng)站日志的分析,我們可以更清楚地了解網(wǎng)站的健康狀況,利用這些數據更有利于開(kāi)發(fā)網(wǎng)站SEO優(yōu)化。 通過(guò)網(wǎng)站日志,您可以清楚地知道用戶(hù)在什么IP、什么時(shí)間、什么操作系統、什么瀏覽器、什么分辨率顯示器的情況下訪(fǎng)問(wèn)了您網(wǎng)站的哪個(gè)頁(yè)面,以及訪(fǎng)問(wèn)是否成功。 對于從事搜索引擎優(yōu)化的專(zhuān)業(yè)人士來(lái)說(shuō),網(wǎng)站日志可以記錄每個(gè)搜索引擎蜘蛛機器人爬取網(wǎng)站的詳細信息,例如:哪一天哪個(gè)IP的百度蜘蛛機器人訪(fǎng)問(wèn)了該網(wǎng)站多少次,訪(fǎng)問(wèn)了哪些頁(yè)面,以及訪(fǎng)問(wèn)了哪些頁(yè)面。 頁(yè)面返回的 HTTP 狀態(tài)代碼。
一、網(wǎng)站日志的作用
1、通過(guò)網(wǎng)站日志可以了解蜘蛛在網(wǎng)站上的基本爬行情況,可以知道蜘蛛的爬行軌跡和爬行量。
2、網(wǎng)站的更新頻率還與蜘蛛在網(wǎng)站日志中抓取的頻率有關(guān)。 一般來(lái)說(shuō),更新頻率越高,蜘蛛的爬行頻率就越高。 我們網(wǎng)站的更新,不僅僅是內容的增加,更是我們運營(yíng)的微調。
3、我們可以根據網(wǎng)站日志的響應,對我們空間的某些操作和問(wèn)題進(jìn)行預警,因為如果服務(wù)器出現問(wèn)題,會(huì )在第一時(shí)間反映在網(wǎng)站日志中。 需要知道服務(wù)器的穩定速度和周轉率。 這兩者的打開(kāi)速度都會(huì )直接影響到我們的網(wǎng)站。
4、通過(guò)網(wǎng)站日志,我們可以知道網(wǎng)站的哪些頁(yè)面非常受蜘蛛的歡迎,哪些頁(yè)面根本就沒(méi)有被蜘蛛接觸過(guò)。 同時(shí),我們也可以發(fā)現一些蜘蛛正在過(guò)度爬取我們的服務(wù)器資源。 損失很大,必須要做好屏蔽工作。
2. 如何下載網(wǎng)站日志
1、首先我們的空間必須支持網(wǎng)站日志下載。 這個(gè)非常重要。 在購買(mǎi)空間之前,您需要知道是否支持日志下載,因為有些服務(wù)提供商不提供此服務(wù)。 如果支持的話(huà), space 后臺通常有一個(gè)log WebLog日志下載功能,可以下載到根目錄,然后用FTP傳輸到本地。 對于服務(wù)器,可以設置要下載的日志文件到指定路徑。
3、網(wǎng)站日志數據分析
1、網(wǎng)站日志中的數據量太大,所以我們通常要借助網(wǎng)站日志分析工具進(jìn)行檢查。 117.26.203.167 - - [02/May/2011:01:57:44-0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0(兼容;MSIE8.0;Windows NT 5.1; Trident/4.0;AskTbCS-ST/5.11.3.15590;.NET CLR 2.0.50727;Alexa 工具欄)”剖析:
117.26.203.167訪(fǎng)問(wèn)ip;
02/May/2011:01:57:44 -0700 訪(fǎng)問(wèn)日期-時(shí)區; GET/index.php HTTP/1.1 根據HTTP/1.1協(xié)議爬?。ㄓ蛎拢?index.php頁(yè)面(GET表示服務(wù)器動(dòng)作); 500 服務(wù)器響應狀態(tài)碼; 服務(wù)器響應狀態(tài)碼通常有以下幾種狀態(tài)碼:200、301、302、304、404、500等,200表示用戶(hù)已成功獲取請求的文件。 如果是搜索引擎,則證明蜘蛛在這次爬取中成功找到了一些新的內容。 而301表示用戶(hù)訪(fǎng)問(wèn)的某個(gè)頁(yè)面的url已經(jīng)用301重定向優(yōu)化過(guò)(永久),302是臨時(shí)重定向。 404 意味著(zhù)訪(fǎng)問(wèn)的頁(yè)面不再存在,或者訪(fǎng)問(wèn)的 url 根本就是錯誤的。 500 是服務(wù)器錯誤。
19967表示抓取了19967個(gè)字節;
Mozilla/4.0(兼容;MSIE 8.0;Windows NT 5.1;Trident/4.0;AskTbCS-ST/5.11.3.15590;.NET CLR 2.0.50727;Alexa Toolbar表示訪(fǎng)問(wèn)者使用Firefox瀏覽器和AlexaToolbar等訪(fǎng)問(wèn)終端信息; 2.如果你的日志格式不是這樣的,說(shuō)明日志格式設置不一樣。
3、如果能在很多日志中看到200 0 0和200 0 64,說(shuō)明正常爬取。
4、爬取頻率通過(guò)查看每日日志中百度蜘蛛爬取的次數得知。 抓取頻率沒(méi)有標準時(shí)間表或頻率編號。 我們通常通過(guò)對比幾天的日志來(lái)判斷。 當然,我們希望百度蜘蛛每天爬取盡可能多的次數。
5.有些情況下我們的路徑不一致,有沒(méi)有斜線(xiàn)都有問(wèn)題。 蜘蛛會(huì )自動(dòng)識別為301,跳轉到斜杠頁(yè)面。 這里我們發(fā)現搜索引擎可以判斷我們的目錄,所以我們要統一我們的目錄。
6.我們分析日志分析時(shí)間比較長(cháng),可以看到蜘蛛的爬行規律,可以看到同目錄下單個(gè)文件的爬行頻率區間和不同目錄的爬行頻率區間,爬行頻率間隔時(shí)間 由蜘蛛根據網(wǎng)站權重和網(wǎng)站更新頻率自動(dòng)確定。
7、蜘蛛對我們頁(yè)面的抓取是分級的,按照權重從大到小排序。 一般順序是首頁(yè)、目錄頁(yè)、內頁(yè)。
4、通過(guò)網(wǎng)站日志我們可以知道什么?
1、我們買(mǎi)的空間能不能穩定?
2. 蜘蛛喜歡我們頁(yè)面的什么,不喜歡什么?
3、蜘蛛在什么情況下會(huì )頻繁爬取我們的網(wǎng)站,什么時(shí)候需要更新內容?
總結:關(guān)于SS6.0采集器文章倒序采集功能的建議
原帖由 茄子 于 2008-1-3 14:43 發(fā)表
這意味著(zhù)您的列表頁(yè)面設置有問(wèn)題
明明只需要采集其中一個(gè)列表頁(yè)的文章,何必寫(xiě)100個(gè)列表
茄子,你沒(méi)明白我的意思,可能是我沒(méi)表達清楚
.
讓我們舉個(gè)例子。 以SS5.5為例,我想采集本列表頁(yè)【論壇資源】下的文章。 因為里面的內容每天更新不超過(guò)5篇(基本是1-2篇),所以我只需要將每次采集的文章數設置為5篇即可(注意不是所有列表頁(yè)都是40篇) ), 同時(shí)選擇 Do not allow headers to be 采集 repeatedly if I run the 采集器 every day. 這樣一來(lái),我每天只需要跑一次采集,絕對可以采集到里面所有的信息。
我所說(shuō)的設置采集文章數的意思是這樣設置的:
但是如果我切換到SS6.0的逆序采集,同樣的設置,我采集的地塊永遠是最后5塊內容。 為了能夠得到最新的更新,我必須設置采集的文章數來(lái)匹配列表頁(yè)面顯示的所有文章數,這里是40篇。
但是想象一下,如果一個(gè)網(wǎng)站的列表頁(yè)面每頁(yè)顯示 200文章……? 假設這個(gè)網(wǎng)站每天更新的內容是前5篇,但是如果我要倒序采集的話(huà),我每次都得看這200條就可以了。
這就是我認為現在的逆序采集規則不合理的地方。 目前的規則是,運行采集器后,系統會(huì )先訪(fǎng)問(wèn)這個(gè)列表頁(yè)面,記錄下所有符合規則的文章url,然后從下往上或從上往下倒序或正序采集這些url集合文章內容量。 而我覺(jué)得應該是系統接入,只記錄置頂采集的設定文章數的url,然后按照正序或逆序采集,這樣就解決了前面的問(wèn)題。 和現在的采集規則相比,只是多了一步而已,但是這樣一來(lái),倒序采集這個(gè)非常非常好的功能,就會(huì )有更加廣闊的實(shí)際應用空間。 希望開(kāi)發(fā)者考慮一下。
配以下圖片:
希望這次我說(shuō)清楚了