那些年,我們了解的搜索引擎
優(yōu)采云 發(fā)布時(shí)間: 2022-06-23 08:56那些年,我們了解的搜索引擎
搜索引擎
Search
Engines
創(chuàng )造人類(lèi)的記憶的,始終是人本身;
而記錄人美好記憶的載體,可能是搜索引擎。
搜索引擎的概念
【所謂搜索引擎,就是根據用戶(hù)需求與一定算法,運用特定策略從互聯(lián)網(wǎng)檢索出指定信息反饋給用戶(hù)的一門(mén)檢索技術(shù)。搜索引擎依托于多種技術(shù),如網(wǎng)絡(luò )爬蟲(chóng)技術(shù)、檢索排序技術(shù)、網(wǎng)頁(yè)處理技術(shù)、大數據處理技術(shù)、自然語(yǔ)言處理技術(shù)等,為信息檢索用戶(hù)提供快速、高相關(guān)性的信息服務(wù)?!?/p>
【類(lèi)型分類(lèi):
一、全文搜索引擎,它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)的文字為主),建立起數據庫,并能檢索與用戶(hù)查詢(xún)條件相匹配的記錄,按一定的排列順序返回結果。國內著(zhù)名的有百度(Baidu)國外則是Google。
二、目錄索引型,用戶(hù)完全不需要依靠關(guān)鍵詞(Keywords)查詢(xún),只是按照分類(lèi)目錄找到所需要的信息。目錄索引中,國內具代表性就是新浪、搜狐、網(wǎng)易分類(lèi)目錄和Yahoo網(wǎng)站雅虎。
三、元數據索引型,接受用戶(hù)查詢(xún)請求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結果返回給用戶(hù),著(zhù)名的元搜索引擎有360搜索、infoSpace、Dogpile、VIsisimo等。
四、垂直索引型,垂直搜索引擎適用于有明確搜索意圖情況下進(jìn)行檢索。
五、互動(dòng)式索引型,在用戶(hù)輸入一個(gè)查詢(xún)詞時(shí),嘗試理解用戶(hù)可能的查詢(xún)意圖,智能展開(kāi)多組相關(guān)的主題,引導用戶(hù)更快速準確定位自己所關(guān)注的內容?!?/p>
搜索引擎的發(fā)展階段
【第一代:
分類(lèi)目錄時(shí)代
網(wǎng)站是一個(gè)導航網(wǎng)站,也可以說(shuō)分類(lèi)目錄網(wǎng)站,用戶(hù)可以從這個(gè)分類(lèi)目錄里找到自己想要的東西,這就是搜索引擎第一代。
第二代:
文本檢索時(shí)代
到了這一代,搜索引擎查詢(xún)信息的方法則是通過(guò)用戶(hù)所輸入的查詢(xún)信息提交給服務(wù)器,服務(wù)器通過(guò)查閱,返回給用戶(hù)一些相關(guān)程度高的信息。
第三代:
整合分析時(shí)代
這一代的搜索引擎所使用的方法大概是和我們今天的網(wǎng)站的外部鏈接形式基本相同,在當時(shí),外部鏈接代表的是一種推薦的含義,通過(guò)每個(gè)網(wǎng)站的推薦鏈接的數量來(lái)判斷一個(gè)網(wǎng)站的流行性和重要性。
第四代:
用戶(hù)中心時(shí)代
主要是以用戶(hù)為中心。當客戶(hù)輸入查詢(xún)的請求時(shí)候,同一個(gè)查詢(xún)的請求關(guān)鍵詞在用戶(hù)的背后可能是不同查詢(xún)要求
第五代:
生活生態(tài)圈
第五代搜索引擎應該是基于物聯(lián)網(wǎng)的搜索,物聯(lián)網(wǎng)搜索擁有更廣闊的搜索空間,能預測到物聯(lián)網(wǎng)一個(gè)最典型的應用就是:找東西!比如遠程看管小孩、老人,或搜索走失小孩,包括精確到厘米的GPS定位,比如你去一個(gè)陌生的地方,找廁所,找窗口,甚至找警察?!?/p>
核心問(wèn)題
【網(wǎng)頁(yè)時(shí)效性:
互聯(lián)網(wǎng)上的用戶(hù)眾多,數據信息來(lái)源極廣,互聯(lián)網(wǎng)上的網(wǎng)頁(yè)是呈實(shí)時(shí)動(dòng)態(tài)變化的,網(wǎng)頁(yè)的更新、刪除等變動(dòng)極為頻繁,有時(shí)候會(huì )出現新更新的網(wǎng)頁(yè)在爬蟲(chóng)程序還來(lái)不及抓取的時(shí)候卻已經(jīng)被刪除的情況,這將大大影響搜索結果的準確性。
大數據存儲問(wèn)題:
爬蟲(chóng)抓取的數據在經(jīng)過(guò)預處理后數據量依然相當龐大,這給大數據存儲技術(shù)帶來(lái)相當大的挑戰。
檢索結果可靠性:
目前由于數據挖掘技術(shù)以及計算機硬件的限制使得數據處理準確度未能達到理想程度,而且由于一些個(gè)人或公司利用搜索引擎現有的漏洞通過(guò)作弊手段來(lái)干擾檢索結果導致檢索結果的可靠性可能會(huì )有損失?!?/p>
搜索引擎的營(yíng)收
【競價(jià)排名:
這是搜索引擎早期的主要盈利途徑。所謂競價(jià)排名,就是關(guān)鍵詞搜索結果的位置拍賣(mài)。
技術(shù)授權:
搜索引擎需要的技術(shù)要求很高,很多網(wǎng)站都不愿花費大量的人力和財力去研發(fā)自身的搜索技術(shù),而是通過(guò)付費給某些搜索企業(yè)來(lái)使用他們的技術(shù)。
AdWords廣告:
這是Google于2003年最先開(kāi)創(chuàng )的盈利模式,這種廣告是針對企業(yè)客戶(hù)而設計的。簡(jiǎn)單的說(shuō),AdWords就是通過(guò)用戶(hù)搜索的關(guān)鍵詞來(lái)提供相關(guān)的廣告?!?/p>
20傳播學(xué)班
宋慶森 聶航
文字 |宋慶森 聶航
排版 |宋慶森