最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

Zac:搜索引擎蜘蛛抓取配額是什么?

優(yōu)采云 發(fā)布時(shí)間: 2022-06-01 18:46

  Zac:搜索引擎蜘蛛抓取配額是什么?

  一月份時(shí),Google新的SEO代言人Gary Illyes在Google官方博客上發(fā)了一篇帖子:What Crawl Budget Means for Googlebot,討論了搜索引擎蜘蛛抓取份額相關(guān)問(wèn)題。對大中型網(wǎng)站來(lái)說(shuō),這是個(gè)頗為重要的SEO問(wèn)題,有時(shí)候會(huì )成為網(wǎng)站自然流量的瓶頸。

  今天的帖子總結一下Gary Illyes帖子里的以及后續跟進(jìn)的很多博客、論壇帖子的主要內容,以及我自己的一些案例和理解。

  強調一下,以下這些概念對百度同樣適用。

  什么是搜索引擎蜘蛛抓取份額?

  顧名思義,抓取份額是搜索引擎蜘蛛花在一個(gè)網(wǎng)站上的抓取頁(yè)面的總的時(shí)間上限。對于特定網(wǎng)站,搜索引擎蜘蛛花在這個(gè)網(wǎng)站上的總時(shí)間是相對固定的,不會(huì )無(wú)限制地抓取網(wǎng)站所有頁(yè)面。

  抓取份額的英文Google用的是crawl budget,直譯是爬行預算,我覺(jué)得不太能說(shuō)明是什么意思,所以用抓取份額表達這個(gè)概念。

  抓取份額是由什么決定的呢?這牽扯到抓取需求和抓取速度限制。

  抓取需求

  抓取需求,crawl demand,指的是搜索引擎“想”抓取特定網(wǎng)站多少頁(yè)面。

  決定抓取需求的主要有兩個(gè)因素。一是頁(yè)面權重,網(wǎng)站上有多少頁(yè)面達到了基本頁(yè)面權重,搜索引擎就想抓取多少頁(yè)面。二是索引庫里頁(yè)面是否太久沒(méi)更新了。說(shuō)到底還是頁(yè)面權重,權重高的頁(yè)面就不會(huì )太久不更新。

  頁(yè)面權重和網(wǎng)站權重又是息息相關(guān)的,提高網(wǎng)站權重,就能使搜索引擎愿意多抓取頁(yè)面。

  抓取速度限制

  搜索引擎蜘蛛不會(huì )為了抓取更多頁(yè)面,把人家網(wǎng)站服務(wù)器拖垮,所以對某個(gè)網(wǎng)站都會(huì )設定一個(gè)抓取速度的上限,crawl rate limit,也就是服務(wù)器能承受的上限,在這個(gè)速度限制內,蜘蛛抓取不會(huì )拖慢服務(wù)器、影響用戶(hù)訪(fǎng)問(wèn)。

  服務(wù)器反應速度夠快,這個(gè)速度限制就上調一點(diǎn),抓取加快,服務(wù)器反應速度下降,速度限制跟著(zhù)下降,抓取減慢,甚至停止抓取。

  所以,抓取速度限制是搜索引擎“能”抓取的頁(yè)面數。

  抓取份額是由什么決定的?

  抓取份額是考慮抓取需求和抓取速度限制兩者之后的結果,也就是搜索引擎“想”抓,同時(shí)又“能”抓的頁(yè)面數。

  網(wǎng)站權重高,頁(yè)面內容質(zhì)量高,頁(yè)面夠多,服務(wù)器速度夠快,抓取份額就大。

  小網(wǎng)站沒(méi)必要擔心抓取份額

  小網(wǎng)站頁(yè)面數少,即使網(wǎng)站權重再低,服務(wù)器再慢,每天搜索引擎蜘蛛抓取的再少,通常至少也能抓個(gè)幾百頁(yè),十幾天怎么也全站抓取一遍了,所以幾千個(gè)頁(yè)面的網(wǎng)站根本不用擔心抓取份額的事。數萬(wàn)個(gè)頁(yè)面的網(wǎng)站一般也不是什么大事。每天幾百個(gè)訪(fǎng)問(wèn)要是能拖慢服務(wù)器,SEO就不是主要需要考慮的事了。

  大中型網(wǎng)站經(jīng)常需要考慮抓取份額

  幾十萬(wàn)頁(yè)以上的大中型網(wǎng)站,可能要考慮抓取份額夠不夠的問(wèn)題。

  抓取份額不夠,比如網(wǎng)站有1千萬(wàn)頁(yè)面,搜索引擎每天只能抓幾萬(wàn)個(gè)頁(yè)面,那么把網(wǎng)站抓一遍可能需要幾個(gè)月,甚至一年,也可能意味著(zhù)一些重要頁(yè)面沒(méi)辦法被抓取,所以也就沒(méi)排名,或者重要頁(yè)面不能及時(shí)被更新。

  要想網(wǎng)站頁(yè)面被及時(shí)、充分抓取,首先要保證服務(wù)器夠快,頁(yè)面夠小。如果網(wǎng)站有海量高質(zhì)量數據,抓取份額將受限于抓取速度,提高頁(yè)面速度直接提高抓取速度限制,因而提高抓取份額。

  百度站長(cháng)平臺和Google Search Console都有抓取數據。如下圖某網(wǎng)站百度抓取頻次:

  

  上圖是SEO每天一貼這種級別的小網(wǎng)站,頁(yè)面抓取頻次和抓取時(shí)間(取決于服務(wù)器速度和頁(yè)面大?。](méi)有什么大關(guān)系,說(shuō)明沒(méi)有用完抓取份額,不用擔心。

  有的時(shí)候,抓取頻次和抓取時(shí)間是有某種對應關(guān)系的,如下圖另一個(gè)大些的網(wǎng)站:

  

  可以看到,抓取時(shí)間改善(減小頁(yè)面尺寸、提高服務(wù)器速度、優(yōu)化數據庫),明顯導致抓取頻次上升,使更多頁(yè)面被抓取收錄,遍歷一遍網(wǎng)站更快速。

  Google Search Console里更大點(diǎn)站的例子:

  

  最上面的是抓取頁(yè)面數,中間的是抓取數據量,除非服務(wù)器出錯,這兩個(gè)應該是對應的。最下面的是頁(yè)面抓取時(shí)間??梢钥吹?,頁(yè)面下載速度夠快,每天抓取上百萬(wàn)頁(yè)是沒(méi)有問(wèn)題的。

  當然,像前面說(shuō)的,能抓上百萬(wàn)頁(yè)是一方面,搜索引擎想不想抓是另一方面。

  大型網(wǎng)站另一個(gè)經(jīng)常需要考慮抓取份額的原因是,不要把有限的抓取份額浪費在無(wú)意義的頁(yè)面抓取上,導致應該被抓取的重要頁(yè)面卻沒(méi)有機會(huì )被抓取。

  浪費抓取份額的典型頁(yè)面有:

  上面這些頁(yè)面被大量抓取,可能用完抓取份額,該抓的頁(yè)面卻沒(méi)抓。

  怎樣節省抓取份額?

  當然首先是降低頁(yè)面文件大小,提高服務(wù)器速度,優(yōu)化數據庫,降低抓取時(shí)間。

  然后,盡量避免上面列出的浪費抓取份額的東西。有的是內容質(zhì)量問(wèn)題,有的是網(wǎng)站結構問(wèn)題,如果是結構問(wèn)題,最簡(jiǎn)單的辦法是robots文件禁止抓取,但多少會(huì )浪費些頁(yè)面權重,因為權重只進(jìn)不出。

  某些情況下使用鏈接nofollow屬性可以節省抓取份額。小網(wǎng)站,由于抓取份額用不完,加nofollow是沒(méi)有意義的。大網(wǎng)站,nofollow是可以在一定程度上控制權重流動(dòng)和分配的,精心設計的nofollow會(huì )使無(wú)意義頁(yè)面權重降低,提升重要頁(yè)面權重。搜索引擎抓取時(shí)會(huì )使用一個(gè)URL抓取列表,里面待抓URL是按頁(yè)面權重排序的,重要頁(yè)面權重提升,會(huì )先被抓取,無(wú)意義頁(yè)面權重可能低到搜索引擎不想抓取。

  最后幾個(gè)說(shuō)明:

  -End-

  ▼

  文∣昝輝(Zac)

  已授權于"互聯(lián)網(wǎng)十八般武藝"首發(fā)!

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区