搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法( 搜索引擎架構*敏*感*詞*搜索系統的概念與應用場(chǎng)景的角度分析 )
優(yōu)采云 發(fā)布時(shí)間: 2022-03-18 04:11搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
搜索引擎架構*敏*感*詞*搜索系統的概念與應用場(chǎng)景的角度分析
)
01 什么是搜索引擎和搜索系統
信息檢索(Information Retrieval,IR)是從滿(mǎn)足用戶(hù)需求的文檔集合中返回相關(guān)信息的過(guò)程。它是一門(mén)研究信息獲?。ˋcquisition)、表示(Representation)、存儲(Storage)、組織(Organization)和訪(fǎng)問(wèn)(Access)的學(xué)科。
Retrieval來(lái)自Retrieval,有人翻譯成get,原意是得到符合輸入要求的輸出。搜索來(lái)自搜索,意思是有目的的尋找。信息檢索不僅僅是搜索,IR 系統不僅僅是一個(gè)搜索引擎。
狹義的信息檢索是指信息檢索;廣義上的信息檢索包括搜索引擎、問(wèn)答、信息提取、信息過(guò)濾)、信息推薦等。
搜索引擎是指按照一定的策略,使用特定的計算機程序從互聯(lián)網(wǎng)上采集信息。對信息進(jìn)行組織處理后,將用戶(hù)檢索到的相關(guān)信息展示給用戶(hù),為用戶(hù)提供檢索服務(wù)。
搜索引擎包括4個(gè)界面,即搜索器、索引器、爬蟲(chóng)和用戶(hù)界面。
具體的搜索引擎架構圖如圖2-1所示。
▲圖2-1 搜索引擎架構*敏*感*詞*
搜索系統的概念可以從以下兩個(gè)方面來(lái)解釋。
系統角度。從系統的角度來(lái)看,搜索系統是一個(gè)更廣泛的概念,包括搜索引擎。所有具有相關(guān)性計算和分析的系統都可以歸類(lèi)為搜索系統。除了我們常說(shuō)的搜索引擎,搜索系統還應該包括外部支持的業(yè)務(wù)場(chǎng)景和應用領(lǐng)域等特性。
用戶(hù)視角。從用戶(hù)的角度來(lái)看,搜索系統的輸出是用戶(hù)需求的投影。因此,在設計搜索系統時(shí),我們需要觀(guān)察用戶(hù)對搜索結果的反應。此外,還要考慮相應的應用場(chǎng)景和搜索項目。
02 搜索引擎的發(fā)展歷程
1990 年代,蒂姆·伯納斯-李 (Tim Berners-Lee) 迎來(lái)了互聯(lián)網(wǎng)時(shí)代,并取得了巨大的發(fā)展。1990 年,Tim Berners-Lee 開(kāi)發(fā)了世界上第一個(gè) Web 服務(wù)器和第一個(gè) Web 客戶(hù)端,被命名為萬(wàn)維網(wǎng) (WWW)。
次年,世界上第一個(gè)WWW網(wǎng)站info.cern.ch成立,網(wǎng)站的成立伴隨著(zhù)HTTP傳輸協(xié)議和相應的HTML等Web服務(wù)的誕生技術(shù)。1993年,NCSA發(fā)明了第一個(gè)瀏覽器Mosaic來(lái)顯示圖片,隨后客戶(hù)端瀏覽器逐漸成熟。這些技術(shù)為互聯(lián)網(wǎng)的快速發(fā)展奠定了基礎。
互聯(lián)網(wǎng)的飛速發(fā)展使得搜索引擎的出現成為必然。1990 年,第一個(gè)互聯(lián)網(wǎng)搜索引擎 Archie 出現,主要用于在 FTP 服務(wù)器上搜索文件。在用戶(hù)準確輸入文件名的前提下,Archie 可以準確地告訴用戶(hù)文件的位置。Archie 搜索的內容雖然不是網(wǎng)頁(yè),但工作原理與網(wǎng)頁(yè)搜索類(lèi)似:自動(dòng)搜索信息資源,建立索引,提供檢索服務(wù)。
1995年,Excite搜索引擎正式推出,是早期流行的搜索引擎之一。Excite 的出現可以追溯到 1993 年 2 月,當時(shí)六名斯坦福大學(xué)的學(xué)生想通過(guò)分析詞的關(guān)系來(lái)高效地檢索 Internet 上的大量信息。Excite以概念檢索而聞名,是搜索引擎技術(shù)——文本檢索的代表。文本檢索一般包括布爾模型、向量空間模型等,主要用于計算用戶(hù)查詢(xún)關(guān)鍵詞與網(wǎng)頁(yè)文本內容的相似度。
1995年4月,雅虎正式成立。它由斯坦福大學(xué)博士 Jerry Yang 和 David Filo 創(chuàng )建。隨著(zhù)訪(fǎng)問(wèn)量和收錄鏈接的增長(cháng),雅虎組織了互聯(lián)網(wǎng)上重要站點(diǎn)的目錄以滿(mǎn)足用戶(hù)的需求,因此發(fā)展迅速。雅虎也成為“目錄導航”搜索引擎技術(shù)的代表。這種技術(shù)提高了 收錄網(wǎng)站 的質(zhì)量,但可擴展性和 收錄網(wǎng)站 更少。
1998年9月,拉里佩奇和謝爾蓋布林共同創(chuàng )立,利用PageRank鏈接分析等新技術(shù)大大提高了搜索質(zhì)量,成為搜索引擎市場(chǎng)份額最大的公司。Google是PageRank鏈接分析技術(shù)的代表。它充分利用網(wǎng)頁(yè)之間的鏈接關(guān)系,考慮頁(yè)面鏈接的數量和質(zhì)量,從而計算網(wǎng)頁(yè)的排名,提高搜索質(zhì)量。
2000年1月,中國最大的搜索引擎公司百度成立,成為中國最大的搜索引擎。目前,百度不再只是使用某種搜索引擎技術(shù)。它試圖通過(guò)用戶(hù)查詢(xún)、地理位置和歷史行為(搜索、點(diǎn)擊、瀏覽)來(lái)了解用戶(hù)當下的真實(shí)需求。
根據STATCOUNTER的統計,在2019年1-12月全球搜索引擎市場(chǎng)份額中,谷歌占比92.63%,微軟必應和雅虎分別排名第二和第三,百度排名第四。
根據STATCOUNTER,在2019年1-12月中國國內搜索引擎市場(chǎng)份額中,百度憑借本地化優(yōu)勢以67.51%排名第一,其次是搜狗和神馬。第二和第三。
在互聯(lián)網(wǎng)飛速發(fā)展的今天,信息呈爆炸式增長(cháng),如何在信息過(guò)載的環(huán)境中快速有效地定位目標信息已成為關(guān)鍵問(wèn)題。搜索是解決信息過(guò)載的一種更有效的方法。搜索引擎對互聯(lián)網(wǎng)資源進(jìn)行組織分類(lèi)并存儲在數據庫中,為用戶(hù)提供查詢(xún)服務(wù),包括信息采集、信息分類(lèi)、用戶(hù)查詢(xún)等。
因此,作為互聯(lián)網(wǎng)網(wǎng)站和應用的入口,搜索引擎的地位越來(lái)越重要。
03 搜索引擎的分類(lèi)
搜索引擎可以分為以下四類(lèi):全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎。下面詳細介紹這四種類(lèi)型的搜索引擎。
1. 全文搜索引擎
計算機掃描文章中的每個(gè)單詞,為每個(gè)單詞建立一個(gè)索引,并記錄該單詞出現在文章中的頻率和位置信息。當用戶(hù)進(jìn)行查詢(xún)時(shí),計算機根據預先建立的索引進(jìn)行搜索,并將結果反饋給用戶(hù)。根據數據結構的不同,全文搜索可以分為結構化數據搜索和非結構化數據搜索。
對于結構化數據,全文檢索一般通過(guò)關(guān)系型數據庫進(jìn)行存儲和檢索,也可以建立索引。
對于非結構化數據,全文搜索主要有兩種方法:順序掃描和全文搜索。
2. 元搜索引擎
搜索引擎按功能可分為元搜索引擎(Meta Search Engine)和獨立搜索引擎(Independent Search Engine)。
元搜索引擎是調用其他獨立搜索引擎的搜索引擎,可以整合、調用和優(yōu)化來(lái)自多個(gè)獨立搜索引擎的結果。獨立搜索引擎主要由網(wǎng)絡(luò )爬蟲(chóng)、索引、鏈接分析和排序組成;元搜索引擎由請求提交代理、檢索界面代理和結果展示代理三部分組成。它不需要維護龐大的索引數據庫,也不需要爬取網(wǎng)頁(yè)。
元搜索引擎的具體實(shí)現邏輯如圖2-2所示。
▲圖2-2 元搜索引擎實(shí)現邏輯
請求提交代理將請求分發(fā)給獨立的搜索引擎。元搜索引擎可以根據用戶(hù)的需求和喜好請求一個(gè)真正需要調用的獨立搜索引擎,可以有效提高用戶(hù)查詢(xún)的準確性和響應效率。
檢索接口代理是將查詢(xún)內容轉換為獨立搜索引擎可接受的模式,并保證必要的語(yǔ)義信息不丟失。結果表明,proxy是一個(gè)元搜索引擎,根據用戶(hù)的需求,采用不同的排序方式對結果進(jìn)行去重和排序。元搜索引擎常用的排序方式有:相關(guān)性排序、時(shí)間排序、搜索引擎排序等。
元搜索引擎的整體工作流程如下:
3. 垂直搜索引擎
垂直搜索引擎是針對某一行業(yè)的專(zhuān)業(yè)搜索引擎,是搜索引擎的細分和延伸,為特定人群、特定領(lǐng)域、特殊需求提供服務(wù)。它的特點(diǎn)是專(zhuān)業(yè)性、精確性和深度。垂直搜索引擎將搜索范圍縮小到高度針對性的特定信息。
垂直搜索引擎的結構類(lèi)似于一般的搜索系統,主要由爬蟲(chóng)、索引和搜索三部分組成。但垂直搜索在定位、內容、用戶(hù)等方面的表現與谷歌、百度等搜索引擎不同,并不是一個(gè)簡(jiǎn)單的行業(yè)搜索引擎。
當用戶(hù)使用通用搜索引擎時(shí),他們通常通過(guò)關(guān)鍵字進(jìn)行搜索。搜索方式一般是語(yǔ)義搜索,返回的結果往往是文章、新聞等,也就是相關(guān)知識。垂直搜索的關(guān)鍵詞搜索放置在一個(gè)行業(yè)知識的上下文中,返回的結果是消息和項目。對于購房者來(lái)說(shuō),他們想要的信息是供求關(guān)系,而不是文章和關(guān)于房屋的新聞。
4. 目錄搜索引擎
目錄搜索引擎是網(wǎng)站常用的搜索方式,類(lèi)似于書(shū)籍章節目錄。這種搜索方式對網(wǎng)站的信息進(jìn)行整合處理,并分門(mén)別類(lèi)地呈現給用戶(hù)。集成處理過(guò)程一般需要人工維護,更新速度較慢。而且用戶(hù)需要提前了解網(wǎng)站的基本內容,熟悉主要模塊,所以應用場(chǎng)景越來(lái)越少。
作者簡(jiǎn)介: 劉宇,清華大學(xué)碩士,現任某公司技術(shù)總監,主要負責公司搜索推薦業(yè)務(wù)及廣告相關(guān)技術(shù)開(kāi)發(fā)。目前的工作重點(diǎn)是落地算法在搜索系統、推薦系統、對話(huà)系統等特定業(yè)務(wù)場(chǎng)景中的應用。他在機器學(xué)習、深度學(xué)習、大數據應用與開(kāi)發(fā)方面有很多研究。合著(zhù)了《聊天機器人:入門(mén)、高級和實(shí)用》一書(shū)。
趙宏宇,東北大學(xué)本科畢業(yè);畢業(yè)于RIT,獲碩*敏*感*詞*,主修AI。目前就職于獵聘網(wǎng),主要負責獵聘網(wǎng)推薦和排名相關(guān)的工作。
劉樹(shù)斌,畢業(yè)于東北大學(xué),本科,現就職于美團,高級系統開(kāi)發(fā)工程師。曾就職于唯品會(huì ),主要負責搜索工程的架構設計和實(shí)現,在Elasticsearch有豐富的工程實(shí)踐經(jīng)驗。
孫明珠,畢業(yè)于南京航空航天大學(xué),碩士,目前在獵聘網(wǎng)擔任高級算法工程師,負責查詢(xún)理解、解析、擴展等NLP相關(guān)工作。
本文節選自《智能搜索與推薦系統:原理、算法與應用》,經(jīng)出版者許可發(fā)表。