搜索引擎如何抓取網(wǎng)頁(yè)( 搜索引擎從用戶(hù)搜索到最終搜索結果展現的步驟是什么)
優(yōu)采云 發(fā)布時(shí)間: 2022-04-20 18:13搜索引擎如何抓取網(wǎng)頁(yè)(
搜索引擎從用戶(hù)搜索到最終搜索結果展現的步驟是什么)
SEO Q&A - 從搜索引擎爬取、索引到搜索結果顯示的步驟
搜索引擎從用戶(hù)搜索到最終搜索結果展示所經(jīng)歷的步驟是(以百度為例):
爬,百度不知道你的網(wǎng)站,怎么讓你排名?所以要讓百度知道你,首先要通過(guò)爬取這一步;
過(guò)濾,過(guò)濾掉低質(zhì)量的頁(yè)面內容;
索引,只存儲符合條件的頁(yè)面;
處理,處理搜索詞,如中文分詞處理,去除停用詞,判斷是否需要啟動(dòng)綜合搜索,判斷是否有拼寫(xiě)錯誤或錯別字。
排名,向用戶(hù)展示優(yōu)質(zhì)頁(yè)面;
蜘蛛:
由搜索引擎發(fā)送的用于發(fā)現和抓取 Internet 上的新網(wǎng)頁(yè)的程序稱(chēng)為蜘蛛。它從一個(gè)已知的數據庫開(kāi)始,像普通用戶(hù)的瀏覽器一樣訪(fǎng)問(wèn)這些網(wǎng)頁(yè),并沿著(zhù)網(wǎng)頁(yè)中的鏈接訪(fǎng)問(wèn)更多的網(wǎng)頁(yè)。,這個(gè)過(guò)程稱(chēng)為爬??;
蜘蛛對站點(diǎn)的遍歷和爬取策略分為深度優(yōu)先和廣度優(yōu)先兩種。
蜘蛛爬行的基本流程:
根據爬取的目標和范圍,可以分為
批量爬蟲(chóng):明確爬取目標和范圍,達到就停止;
增量爬蟲(chóng):為了響應網(wǎng)頁(yè)不斷更新的狀態(tài),爬蟲(chóng)需要及時(shí)響應,一般商業(yè)引擎一般都是這種類(lèi)型;
垂直爬蟲(chóng):只針對特定領(lǐng)域的爬蟲(chóng),根據主題進(jìn)行過(guò)濾;
爬取過(guò)程中百度官方蜘蛛攻略
1、爬取友好性,同一站點(diǎn)在一段時(shí)間內的爬取頻率和爬取流量不同,即錯開(kāi)正常用戶(hù)訪(fǎng)問(wèn)高峰并不斷調整,避免對被抓影響過(guò)大1、@ > @網(wǎng)站 的正常用戶(hù)訪(fǎng)問(wèn)行為。
2、常用的fetch返回碼,如503、404、403、301等;
3、對各種url重定向的識別,如http 30x、meta refresh重定向和js重定向,Canonical標簽也可以認為是變相的重定向;
4、搶優(yōu)先分配,如深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、大站點(diǎn)優(yōu)先策略等;
5、重復url過(guò)濾,包括url規范化識別,例如一個(gè)url收錄大量無(wú)效參數但實(shí)際上是同一個(gè)頁(yè)面;
6、暗網(wǎng)數據的獲取,暫時(shí)無(wú)法被搜索引擎抓取的數據,比如存在于網(wǎng)絡(luò )數據庫中,或者由于網(wǎng)絡(luò )環(huán)境,網(wǎng)站本身不符合規范,孤島等問(wèn)題. 被爬取,比如百度的“阿拉丁”程序;
7、爬蟲(chóng)防作弊,爬取過(guò)程中經(jīng)常遇到所謂的爬蟲(chóng)黑洞或者面臨大量低質(zhì)量頁(yè)面,這就需要在爬蟲(chóng)系統中設計一套完整的爬蟲(chóng)防作弊系統。. 如分析url特征、分析頁(yè)面大小和內容、分析爬取規模對應的站點(diǎn)規模等;
蜘蛛感興趣的頁(yè)面有 3 類(lèi):
1.從未抓取過(guò)新頁(yè)面。
2.使用修改過(guò)的內容爬網(wǎng)的頁(yè)面。
3.已抓取但現已刪除的頁(yè)面。
什么蜘蛛不能/不喜歡爬行:
1.被機器人屏蔽的頁(yè)面;
2.flash 中的圖片、視頻和內容;
3.js、iframe框架、表格嵌套;
4.蜘蛛被服務(wù)器攔截;
5.島嶼頁(yè)面(沒(méi)有任何導入鏈接);
6.登錄后才能獲取的內容;
四種近似的重復頁(yè)面類(lèi)型:
1.完全重復頁(yè)面:內容和布局格式?jīng)]有區別;
2.內容重復的頁(yè)面:內容相同,但布局格式不同;
3.布局重復頁(yè)面:部分重要內容相同,布局格式相同;
4.部分重復頁(yè)面的重要內容相同,但布局格式不同;
典型的網(wǎng)頁(yè)去重算法:特征提取、文檔指紋生成、相似度計算
低質(zhì)量的內容頁(yè)面:
1.多個(gè)URL地址指向同一個(gè)網(wǎng)頁(yè)和鏡像站點(diǎn),如帶www和不帶www并解析為一個(gè)網(wǎng)站;
2.網(wǎng)頁(yè)內容重復或幾乎重復,如采集的內容,文字不正確或垃圾郵件;
沒(méi)有豐富的內容,如純圖片頁(yè)面或搜索引擎無(wú)法識別的頁(yè)面內容;
過(guò)濾 - 如何處理重復文檔:
1.已刪除低質(zhì)量?jì)热?/p>
2.高質(zhì)量重復文檔優(yōu)先分組展示(高重復表示歡迎)