最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<form id="ag5zn"></form>

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

搜索引擎爬蟲(chóng)的五大抓取策略

優(yōu)采云發(fā)布時(shí)間: 2022-06-19 17:39

　　搜索引擎爬蟲(chóng)的五大抓取策略

　　1、爬蟲(chóng)的寬度優(yōu)先抓取策略

　　寬度優(yōu)先抓取策略，一個(gè)歷史悠久且一直被關(guān)注的抓取策略，從搜索引擎爬蟲(chóng)誕生至今一直被使用的抓取策略，甚至很多新的策略也是通過(guò)這個(gè)作為基準的。

　　寬度優(yōu)先抓取策略是通過(guò)待抓取URL列表為基準進(jìn)行抓取，發(fā)現的新鏈接，且判斷為未抓取過(guò)的基本就直接存放到待抓取URL列表的末尾，等待抓取。

　　

　　如上圖，我們假設爬蟲(chóng)的待抓取URL列表中，只有A，爬蟲(chóng)從A網(wǎng)頁(yè)開(kāi)始抓取，從A中提取了B、C、D網(wǎng)頁(yè)，于是將B、C、D放入到抓取隊列，再依次獲得E、F、G、H、I網(wǎng)頁(yè)并插入到待抓取的URL列表中，以此類(lèi)推，周而復始。

　　2、爬蟲(chóng)的深度優(yōu)先抓取策略

　　深度優(yōu)先抓取的策略是爬蟲(chóng)會(huì )從待抓取列表中抓取第一個(gè)URL，然后沿著(zhù)這個(gè)URL持續抓取這個(gè)頁(yè)面的其他URL，直到處理完這個(gè)線(xiàn)路后，再從待抓取的列表中，抓取第二個(gè)，以此類(lèi)推。下面給了一個(gè)圖解。

　　

　　A作為第一個(gè)從待抓取列表的URL，爬蟲(chóng)開(kāi)始抓取，然后抓取到B、C、D、E、F，但B、C、D中都沒(méi)有后續的鏈接了（這里也是會(huì )去掉已經(jīng)抓取過(guò)的頁(yè)面），從E中發(fā)現了H,順著(zhù)H，發(fā)現了I，然后就沒(méi)有更多了。在F中發(fā)現了G，然后針對這個(gè)鏈接的抓取就結束了。從待抓取列表中，拿到下一個(gè)鏈接繼續上述操作。

　　3、爬蟲(chóng)的非完全PageRank抓取策略

　　相信PageRank算法很多人都知道，我們SEO的大白話(huà)理解就是鏈接傳遞權重的算法。而如果應用在爬蟲(chóng)抓取上，是怎樣的邏輯呢？首先爬蟲(chóng)的目的是去下載網(wǎng)頁(yè)，與此同時(shí)爬蟲(chóng)不能看到所有的網(wǎng)頁(yè)指向某一網(wǎng)頁(yè)的鏈接，所以在抓取的過(guò)程中，爬蟲(chóng)是無(wú)法計算全部網(wǎng)頁(yè)的pagerank的，就導致了在抓取過(guò)程中計算的pagerank不是太靠譜。

　　那非完全pagerank抓取策略，就是基于在爬蟲(chóng)不能看到所有網(wǎng)頁(yè)指向某一網(wǎng)頁(yè)的鏈接，而只能看到部分的情況，還要進(jìn)行pagerank的計算結果。

　　它的具體策略就是對已經(jīng)下載了的網(wǎng)頁(yè)，加上待抓取的URL列表里的網(wǎng)頁(yè)一起，形成一個(gè)匯總。在這個(gè)匯總內進(jìn)行pagerank的計算。在計算完成后，待抓取的url列表里的每一個(gè)url都會(huì )得到一個(gè)pagerank值，然后按照這個(gè)值進(jìn)行倒序排列。先抓取pagerank分值最高的，然后逐個(gè)抓取。

　　那問(wèn)題來(lái)了？待抓取URL列表中，在末尾新增一個(gè)URL，就要重新計算一次嗎？

　　實(shí)際不是這樣的。搜索引擎會(huì )等到在待抓取URL列表的新增URL達到一定數量時(shí)，再進(jìn)行重新抓取。這樣效率會(huì )提升很多。畢竟爬蟲(chóng)抓取到新增的那第一個(gè)，也需要時(shí)間的。

　　4、爬蟲(chóng)的OPIC抓取策略

　　OPIC是online page importance computation的縮寫(xiě)，意思是“在線(xiàn)頁(yè)面重要性計算”，這個(gè)是pagerank的升級版本。

　　它具體的策略邏輯是這樣，爬蟲(chóng)把互聯(lián)網(wǎng)上所有的URL都賦予一個(gè)初始的分值，且每個(gè)URL都是同等的分值。每當下載一個(gè)網(wǎng)頁(yè)就把這個(gè)網(wǎng)頁(yè)的分值平均分攤給這個(gè)頁(yè)面內的所有鏈接。自然這個(gè)頁(yè)面的分值就要被清空了。而對于待抓取的URL列表里（當然，剛才那個(gè)網(wǎng)頁(yè)被清空了分值，也是因為它已經(jīng)被抓取了），則根據誰(shuí)的分值最高就優(yōu)先抓取誰(shuí)。

　　區別于pagerank，opic是實(shí)時(shí)計算的。這里提醒我們，如果單純只考慮opic這個(gè)抓取策略來(lái)說(shuō)。無(wú)論是這個(gè)策略還是pagerank策略都證實(shí)了一個(gè)邏輯。我們新產(chǎn)生的網(wǎng)頁(yè)，被鏈接的次數越多，被抓取的概率就越大。

　　是不是值得你思考一下你的網(wǎng)頁(yè)布局了？

　　5、爬蟲(chóng)抓取的大站優(yōu)先策略

　　大站優(yōu)先抓取，是不是就顧名思義了呢？大型網(wǎng)站就會(huì )有先抓??？不過(guò)這里是有兩種解釋的。我個(gè)人認為這兩種解釋爬蟲(chóng)都在使用。

　　大站優(yōu)先抓取的解釋1：比較貼合字面意思，爬蟲(chóng)會(huì )根據待抓取列表中的URL進(jìn)行歸類(lèi)，然后判斷域名對應的網(wǎng)站級別。例如權重越高的網(wǎng)站所屬域名越應該優(yōu)先抓取。

　　大站優(yōu)先抓取解釋2：爬蟲(chóng)將待抓取列表里的URL按照域名進(jìn)行歸類(lèi)，然后計算數量。其所屬域名在待抓取列表里數量最多的優(yōu)先抓取。

　　這兩個(gè)解釋一個(gè)是針對網(wǎng)站權重高的，一個(gè)是針對每天文章發(fā)布數量高且發(fā)布很集中的。不過(guò)我們試想一下，發(fā)布那么集中且那么多篇的站點(diǎn)，一般也都是大站了吧？

　　這里讓我們思考的是什么呢？

　　寫(xiě)文章的同時(shí)，應該集中一個(gè)時(shí)間點(diǎn)推送給搜索引擎。不能一個(gè)小時(shí)一篇，太分散。不過(guò)這個(gè)有待考證，有經(jīng)歷的同學(xué)可以進(jìn)行一下測試。

　　如上，是我針對搜索引擎抓取的5大優(yōu)先抓取策略的分享，希望能夠對你所有幫助。不知道文章是否有深度，我已盡力組織語(yǔ)言了，如果還有什么想交流討論的，可以評論區給我留言，我會(huì )在第一時(shí)間和你交流的。

　　現在已經(jīng)有 10000+ 朋友關(guān)注了我

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

0

2022-06-19

搜索引擎如何抓取網(wǎng)頁(yè)

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<form id="nnoov"></form>

<center id="nnoov"></center>

<style id="nnoov"></style>