最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

搜索引擎爬蟲(chóng)的五大抓取策略

優(yōu)采云 發(fā)布時(shí)間: 2022-06-19 17:39

  搜索引擎爬蟲(chóng)的五大抓取策略

  1、爬蟲(chóng)的寬度優(yōu)先抓取策略

  寬度優(yōu)先抓取策略,一個(gè)歷史悠久且一直被關(guān)注的抓取策略,從搜索引擎爬蟲(chóng)誕生至今一直被使用的抓取策略,甚至很多新的策略也是通過(guò)這個(gè)作為基準的。

  寬度優(yōu)先抓取策略是通過(guò)待抓取URL列表為基準進(jìn)行抓取,發(fā)現的新鏈接,且判斷為未抓取過(guò)的基本就直接存放到待抓取URL列表的末尾,等待抓取。

  

  如上圖,我們假設爬蟲(chóng)的待抓取URL列表中,只有A,爬蟲(chóng)從A網(wǎng)頁(yè)開(kāi)始抓取,從A中提取了B、C、D網(wǎng)頁(yè),于是將B、C、D放入到抓取隊列,再依次獲得E、F、G、H、I網(wǎng)頁(yè)并插入到待抓取的URL列表中,以此類(lèi)推,周而復始。

  2、爬蟲(chóng)的深度優(yōu)先抓取策略

  深度優(yōu)先抓取的策略是爬蟲(chóng)會(huì )從待抓取列表中抓取第一個(gè)URL,然后沿著(zhù)這個(gè)URL持續抓取這個(gè)頁(yè)面的其他URL,直到處理完這個(gè)線(xiàn)路后,再從待抓取的列表中,抓取第二個(gè),以此類(lèi)推。下面給了一個(gè)圖解。

  

  A作為第一個(gè)從待抓取列表的URL,爬蟲(chóng)開(kāi)始抓取,然后抓取到B、C、D、E、F,但B、C、D中都沒(méi)有后續的鏈接了(這里也是會(huì )去掉已經(jīng)抓取過(guò)的頁(yè)面),從E中發(fā)現了H,順著(zhù)H,發(fā)現了I,然后就沒(méi)有更多了。在F中發(fā)現了G,然后針對這個(gè)鏈接的抓取就結束了。從待抓取列表中,拿到下一個(gè)鏈接繼續上述操作。

  3、爬蟲(chóng)的非完全PageRank抓取策略

  相信PageRank算法很多人都知道,我們SEO的大白話(huà)理解就是鏈接傳遞權重的算法。而如果應用在爬蟲(chóng)抓取上,是怎樣的邏輯呢?首先爬蟲(chóng)的目的是去下載網(wǎng)頁(yè),與此同時(shí)爬蟲(chóng)不能看到所有的網(wǎng)頁(yè)指向某一網(wǎng)頁(yè)的鏈接,所以在抓取的過(guò)程中,爬蟲(chóng)是無(wú)法計算全部網(wǎng)頁(yè)的pagerank的,就導致了在抓取過(guò)程中計算的pagerank不是太靠譜。

  那非完全pagerank抓取策略,就是基于在爬蟲(chóng)不能看到所有網(wǎng)頁(yè)指向某一網(wǎng)頁(yè)的鏈接,而只能看到部分的情況,還要進(jìn)行pagerank的計算結果。

  它的具體策略就是對已經(jīng)下載了的網(wǎng)頁(yè),加上待抓取的URL列表里的網(wǎng)頁(yè)一起,形成一個(gè)匯總。在這個(gè)匯總內進(jìn)行pagerank的計算。在計算完成后,待抓取的url列表里的每一個(gè)url都會(huì )得到一個(gè)pagerank值,然后按照這個(gè)值進(jìn)行倒序排列。先抓取pagerank分值最高的,然后逐個(gè)抓取。

  那問(wèn)題來(lái)了?待抓取URL列表中,在末尾新增一個(gè)URL,就要重新計算一次嗎?

  實(shí)際不是這樣的。搜索引擎會(huì )等到在待抓取URL列表的新增URL達到一定數量時(shí),再進(jìn)行重新抓取。這樣效率會(huì )提升很多。畢竟爬蟲(chóng)抓取到新增的那第一個(gè),也需要時(shí)間的。

  4、爬蟲(chóng)的OPIC抓取策略

  OPIC是online page importance computation的縮寫(xiě),意思是“在線(xiàn)頁(yè)面重要性計算”,這個(gè)是pagerank的升級版本。

  它具體的策略邏輯是這樣,爬蟲(chóng)把互聯(lián)網(wǎng)上所有的URL都賦予一個(gè)初始的分值,且每個(gè)URL都是同等的分值。每當下載一個(gè)網(wǎng)頁(yè)就把這個(gè)網(wǎng)頁(yè)的分值平均分攤給這個(gè)頁(yè)面內的所有鏈接。自然這個(gè)頁(yè)面的分值就要被清空了。而對于待抓取的URL列表里(當然,剛才那個(gè)網(wǎng)頁(yè)被清空了分值,也是因為它已經(jīng)被抓取了),則根據誰(shuí)的分值最高就優(yōu)先抓取誰(shuí)。

  區別于pagerank,opic是實(shí)時(shí)計算的。這里提醒我們,如果單純只考慮opic這個(gè)抓取策略來(lái)說(shuō)。無(wú)論是這個(gè)策略還是pagerank策略都證實(shí)了一個(gè)邏輯。我們新產(chǎn)生的網(wǎng)頁(yè),被鏈接的次數越多,被抓取的概率就越大。

  是不是值得你思考一下你的網(wǎng)頁(yè)布局了?

  5、爬蟲(chóng)抓取的大站優(yōu)先策略

  大站優(yōu)先抓取,是不是就顧名思義了呢?大型網(wǎng)站就會(huì )有先抓???不過(guò)這里是有兩種解釋的。我個(gè)人認為這兩種解釋爬蟲(chóng)都在使用。

  大站優(yōu)先抓取的解釋1:比較貼合字面意思,爬蟲(chóng)會(huì )根據待抓取列表中的URL進(jìn)行歸類(lèi),然后判斷域名對應的網(wǎng)站級別。例如權重越高的網(wǎng)站所屬域名越應該優(yōu)先抓取。

  大站優(yōu)先抓取解釋2:爬蟲(chóng)將待抓取列表里的URL按照域名進(jìn)行歸類(lèi),然后計算數量。其所屬域名在待抓取列表里數量最多的優(yōu)先抓取。

  這兩個(gè)解釋一個(gè)是針對網(wǎng)站權重高的,一個(gè)是針對每天文章發(fā)布數量高且發(fā)布很集中的。不過(guò)我們試想一下,發(fā)布那么集中且那么多篇的站點(diǎn),一般也都是大站了吧?

  這里讓我們思考的是什么呢?

  寫(xiě)文章的同時(shí),應該集中一個(gè)時(shí)間點(diǎn)推送給搜索引擎。不能一個(gè)小時(shí)一篇,太分散。不過(guò)這個(gè)有待考證,有經(jīng)歷的同學(xué)可以進(jìn)行一下測試。

  如上,是我針對搜索引擎抓取的5大優(yōu)先抓取策略的分享,希望能夠對你所有幫助。不知道文章是否有深度,我已盡力組織語(yǔ)言了,如果還有什么想交流討論的,可以評論區給我留言,我會(huì )在第一時(shí)間和你交流的。

  現在已經(jīng)有 10000+ 朋友關(guān)注了我

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区