最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

怎么實(shí)現一個(gè)搜索引擎

優(yōu)采云 發(fā)布時(shí)間: 2022-05-09 21:35

  怎么實(shí)現一個(gè)搜索引擎

  

  概 述

  在這個(gè)信息爆炸的時(shí)代里,我們平時(shí)想要去找一些自己感興趣的東西通常都是通過(guò)搜索引擎來(lái)幫你完成查找的。用過(guò)搜索引擎的人都知道,我們在搜索欄中輸入我們需要的查找的關(guān)鍵字,點(diǎn)擊搜索就會(huì )得到一個(gè)結果頁(yè)面,這個(gè)結果頁(yè)面的內容就包含了我們要查找的關(guān)鍵字。那么搜索引擎到底是如何高效查找目標內容呢?本文主要介紹搜索引擎的一些實(shí)現的相關(guān)技術(shù)。

  怎么從文章里面找到你需要的內容?

  那么第一個(gè)問(wèn)題來(lái)了,我們在搜索框里面輸入一大堆信息,搜索引擎是怎么找到我需要的內容的呢??這個(gè)問(wèn)題我認為有一定基礎的人都可以實(shí)現出來(lái),也有很多人討論怎么實(shí)現效率更高,那我們就先看看我們的請求過(guò)程:

  

  查詢(xún)過(guò)程

  當然這里是簡(jiǎn)單的畫(huà)了一下,具體看各自業(yè)務(wù)情況。

  分詞處理

  假設我們在搜索框輸入了一些搜索關(guān)鍵字,那是搜索引擎在后端會(huì )對我們的輸入的關(guān)鍵字或者關(guān)鍵詞進(jìn)行分詞處理。假設我們現在搜索一句話(huà)I Love You!那這段話(huà)通過(guò)分詞之后就是[I,Love,You,I Love You],當然這是英文輸入的時(shí)候會(huì )帶上空格,如果是中文的話(huà)需要借助一些專(zhuān)業(yè)的分詞算法庫進(jìn)行分詞操作,這里不細說(shuō)。

  相關(guān)的算法

  數據太多了,怎么查找?

  假設我們服務(wù)器包含1000篇文章,我們要在這些文章文件里面找到包含有xxx的內容,如果從頭開(kāi)始遍歷文件內容然后對匹配的做個(gè)記錄和收集返回,讀取一篇文章所消耗的時(shí)間假定為50毫秒,每篇文章搜索消耗0.1毫秒,那這樣是不是太浪費服務(wù)器資源了??!

  經(jīng)過(guò)簡(jiǎn)單的推算會(huì )明顯發(fā)現,這個(gè)搜索的速度是完全不可能接受的,人家google,sogo可都是幾百毫秒取出上億的列表所以,上述的方法完全行不通,我們需要新的方法。

  倒排索引 該上場(chǎng)了

  倒排索引(英文:Inverted Index),是一種索引方法,常被用于全文檢索系統中的一種單詞文檔映射結構?,F代搜索引擎絕大多數的索引都是基于倒排索引來(lái)進(jìn)行構建的。我們在使用搜索引擎查找信息時(shí)往往只輸入信息中的某個(gè)屬性關(guān)鍵字,如一些用戶(hù)不記得歌名,會(huì )輸入歌詞來(lái)查找歌名,輸入某個(gè)節目?jì)热萜蝸?lái)查找該節目等等。

  倒排索引是關(guān)鍵詞——文檔形式的一種映射結構,實(shí)現了通過(guò)物品屬性信息對物品進(jìn)行映射時(shí),可以幫助用戶(hù)快速定位到目標信息,從而極大降低了信息獲取難度。

  

  相信大家都使用這個(gè),字典的目錄和側面都做了一些特殊標記,方便我們更快查找到某些內容。倒排索引也是這樣的對源數據的內容進(jìn)行特殊的處理把里面的信息做一個(gè)索引記錄。

  

  倒排索引圖

  一般地,當接受到用戶(hù)查詢(xún)請求時(shí),進(jìn)入到倒排索引進(jìn)行檢索時(shí),在返回結果的過(guò)程中,主要有以下幾個(gè)步驟:

  構建倒排索引是搜索引擎里面至關(guān)重要的一個(gè)步驟。從技術(shù)層面去分析,對于構造一個(gè)倒排索引,主要分為兩部分:

  詞項構造

  詞項構造是在構建索引過(guò)程中必不可或缺的一個(gè)步驟,詞項構造效果的好壞往往會(huì )直接影響到用戶(hù)的搜索體驗,以及搜索結果的召回。該過(guò)程主要是利用分詞系統將文檔中的各項屬性的文本信息拆分成一些表意較強且重要的詞匯,便于用戶(hù)查找。

  

  例如問(wèn)題:

  一個(gè)簡(jiǎn)單的解決方案:我們對匹配的詞語(yǔ)進(jìn)行統計,引用次數越多,那么匹配度越高,可以認為越準確。

  小 結

  本文介紹的只是簡(jiǎn)單的全文搜索實(shí)現及原理,如果要做專(zhuān)業(yè)級的搜索引擎,這些知識是完全不夠的。你需要知道爬蟲(chóng),自然語(yǔ)言分析處理,怎么提高搜索處理的速度等等,海量數據的存儲等等知識。

  

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区