最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

搜索引擎如何抓取網(wǎng)頁(yè)( 搜索引擎從用戶(hù)搜索到最終搜索結果展現的步驟是什么)

優(yōu)采云 發(fā)布時(shí)間: 2022-04-20 18:13

  搜索引擎如何抓取網(wǎng)頁(yè)(

搜索引擎從用戶(hù)搜索到最終搜索結果展現的步驟是什么)

  SEO Q&A - 從搜索引擎爬取、索引到搜索結果顯示的步驟

  搜索引擎從用戶(hù)搜索到最終搜索結果展示所經(jīng)歷的步驟是(以百度為例):

  爬,百度不知道你的網(wǎng)站,怎么讓你排名?所以要讓百度知道你,首先要通過(guò)爬取這一步;

  過(guò)濾,過(guò)濾掉低質(zhì)量的頁(yè)面內容;

  索引,只存儲符合條件的頁(yè)面;

  處理,處理搜索詞,如中文分詞處理,去除停用詞,判斷是否需要啟動(dòng)綜合搜索,判斷是否有拼寫(xiě)錯誤或錯別字。

  排名,向用戶(hù)展示優(yōu)質(zhì)頁(yè)面;

  

  蜘蛛:

  由搜索引擎發(fā)送的用于發(fā)現和抓取 Internet 上的新網(wǎng)頁(yè)的程序稱(chēng)為蜘蛛。它從一個(gè)已知的數據庫開(kāi)始,像普通用戶(hù)的瀏覽器一樣訪(fǎng)問(wèn)這些網(wǎng)頁(yè),并沿著(zhù)網(wǎng)頁(yè)中的鏈接訪(fǎng)問(wèn)更多的網(wǎng)頁(yè)。,這個(gè)過(guò)程稱(chēng)為爬??;

  蜘蛛對站點(diǎn)的遍歷和爬取策略分為深度優(yōu)先和廣度優(yōu)先兩種。

  蜘蛛爬行的基本流程:

  根據爬取的目標和范圍,可以分為

  批量爬蟲(chóng):明確爬取目標和范圍,達到就停止;

  增量爬蟲(chóng):為了響應網(wǎng)頁(yè)不斷更新的狀態(tài),爬蟲(chóng)需要及時(shí)響應,一般商業(yè)引擎一般都是這種類(lèi)型;

  垂直爬蟲(chóng):只針對特定領(lǐng)域的爬蟲(chóng),根據主題進(jìn)行過(guò)濾;

  爬取過(guò)程中百度官方蜘蛛攻略

  1、爬取友好性,同一站點(diǎn)在一段時(shí)間內的爬取頻率和爬取流量不同,即錯開(kāi)正常用戶(hù)訪(fǎng)問(wèn)高峰并不斷調整,避免對被抓影響過(guò)大1、@ > @網(wǎng)站 的正常用戶(hù)訪(fǎng)問(wèn)行為。

  2、常用的fetch返回碼,如503、404、403、301等;

  3、對各種url重定向的識別,如http 30x、meta refresh重定向和js重定向,Canonical標簽也可以認為是變相的重定向;

  4、搶優(yōu)先分配,如深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、大站點(diǎn)優(yōu)先策略等;

  5、重復url過(guò)濾,包括url規范化識別,例如一個(gè)url收錄大量無(wú)效參數但實(shí)際上是同一個(gè)頁(yè)面;

  6、暗網(wǎng)數據的獲取,暫時(shí)無(wú)法被搜索引擎抓取的數據,比如存在于網(wǎng)絡(luò )數據庫中,或者由于網(wǎng)絡(luò )環(huán)境,網(wǎng)站本身不符合規范,孤島等問(wèn)題. 被爬取,比如百度的“阿拉丁”程序;

  7、爬蟲(chóng)防作弊,爬取過(guò)程中經(jīng)常遇到所謂的爬蟲(chóng)黑洞或者面臨大量低質(zhì)量頁(yè)面,這就需要在爬蟲(chóng)系統中設計一套完整的爬蟲(chóng)防作弊系統。. 如分析url特征、分析頁(yè)面大小和內容、分析爬取規模對應的站點(diǎn)規模等;

  蜘蛛感興趣的頁(yè)面有 3 類(lèi):

  1.從未抓取過(guò)新頁(yè)面。

  2.使用修改過(guò)的內容爬網(wǎng)的頁(yè)面。

  3.已抓取但現已刪除的頁(yè)面。

  什么蜘蛛不能/不喜歡爬行:

  1.被機器人屏蔽的頁(yè)面;

  2.flash 中的圖片、視頻和內容;

  3.js、iframe框架、表格嵌套;

  4.蜘蛛被服務(wù)器攔截;

  5.島嶼頁(yè)面(沒(méi)有任何導入鏈接);

  6.登錄后才能獲取的內容;

  四種近似的重復頁(yè)面類(lèi)型:

  1.完全重復頁(yè)面:內容和布局格式?jīng)]有區別;

  2.內容重復的頁(yè)面:內容相同,但布局格式不同;

  3.布局重復頁(yè)面:部分重要內容相同,布局格式相同;

  4.部分重復頁(yè)面的重要內容相同,但布局格式不同;

  典型的網(wǎng)頁(yè)去重算法:特征提取、文檔指紋生成、相似度計算

  低質(zhì)量的內容頁(yè)面:

  1.多個(gè)URL地址指向同一個(gè)網(wǎng)頁(yè)和鏡像站點(diǎn),如帶www和不帶www并解析為一個(gè)網(wǎng)站;

  2.網(wǎng)頁(yè)內容重復或幾乎重復,如采集的內容,文字不正確或垃圾郵件;

  沒(méi)有豐富的內容,如純圖片頁(yè)面或搜索引擎無(wú)法識別的頁(yè)面內容;

  過(guò)濾 - 如何處理重復文檔:

  1.已刪除低質(zhì)量?jì)热?/p>

  2.高質(zhì)量重復文檔優(yōu)先分組展示(高重復表示歡迎)

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区