搜索引擎對蜘蛛回來(lái)的頁(yè)面進(jìn)行處理主要有4個(gè)步驟
優(yōu)采云 發(fā)布時(shí)間: 2021-06-21 21:12
搜索引擎對蜘蛛回來(lái)的頁(yè)面進(jìn)行處理主要有4個(gè)步驟
搜索引擎抓取到內容后,收錄會(huì )被發(fā)送到數據庫中。用戶(hù)搜索時(shí),搜索引擎會(huì )將收錄的內容呈現給用戶(hù)。為了將內容快速呈現給用戶(hù),搜索引擎需要對接收到的內容進(jìn)行處理,只留下關(guān)鍵信息,以便在用戶(hù)發(fā)起搜索時(shí)快速呈現需要的內容。
搜索引擎處理蜘蛛檢索到的頁(yè)面有四個(gè)主要步驟。
首先:確定頁(yè)面的頁(yè)面類(lèi)型
判斷頁(yè)面是普通的普通網(wǎng)頁(yè)還是PDF等特殊文件。普通網(wǎng)頁(yè)會(huì )區分論壇、普通文章或視頻等內容,以便日后更快地呈現給用戶(hù)
二:提取網(wǎng)頁(yè)的文字信息
站長(cháng)們都知道搜索引擎無(wú)法識別JavaScript、Flash、圖片、視頻等,雖然一直在努力識別這些信息,但仍然依靠提取網(wǎng)頁(yè)TDK進(jìn)行識別,雖然關(guān)鍵字標簽已經(jīng)被主流拋棄搜索引擎,但還是會(huì )有一些參考。
第三:去除頁(yè)面噪音
文章前面有兩三篇文章,提到了頁(yè)面信噪比的問(wèn)題。信噪比是頁(yè)面主題內容與干擾信息的比值。搜索引擎會(huì )刪除與頁(yè)面無(wú)關(guān)的廣告、導航、鏈接等。類(lèi)信息,提取網(wǎng)頁(yè)的主要內容。相關(guān)搜索也會(huì )在一定程度上算作該頁(yè)面的內容,所以更好地利用搜索不僅可以提高頁(yè)面質(zhì)量,還可以增加與用戶(hù)搜索的匹配度。
第四:去除頁(yè)面內容中的停用詞
去除頁(yè)面停用詞實(shí)際上是一個(gè)搜索引擎的分詞過(guò)程。今天主要講停用詞,即頁(yè)面上的“的”、“啊”等詞,以減少搜索引擎的計算量。