搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有哪些?
優(yōu)采云 發(fā)布時(shí)間: 2022-09-20 16:25搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有哪些?
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有“詞向量法”“候選詞引導法”以及各種變形方法等。每種搜索引擎都有相對應的檢索策略,自然搜索引擎的檢索策略更加復雜,標準不一,其中包括網(wǎng)頁(yè)的檢索與分類(lèi)、候選詞檢索、關(guān)鍵詞分析等。
一、webtopic的檢索方法1.首先是常用的基于文檔的方法,
3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(獨熱圖)搜索,即可以通過(guò)比較兩個(gè)文檔找到topics,對獨熱圖進(jìn)行匹配,從而讓用戶(hù)找到最佳檢索結果。4.geohash,是去掉了所有相同點(diǎn)的余弦值來(lái)估計稀疏性。
5.winding搜索:對于從文檔中提取有關(guān)詞進(jìn)行匹配,利用hardn-grams對top-kkeywords進(jìn)行分類(lèi),從而找到下一個(gè)、甚至最可能的topkeywords。6.springerqualitycontrol:標注namematching。springerqualitycontrol是做有關(guān)詞進(jìn)行質(zhì)量判斷的,判斷用戶(hù)是否產(chǎn)生搜索的前后文,從而找到合理的搜索結果。7.repinding:是一種通過(guò)比較匹配詞和不匹配詞的關(guān)鍵詞在詞庫中的位置來(lái)進(jìn)行檢索的方法。
二、根據檢索規則進(jìn)行信息檢索策略8.邏輯回歸:可以對給定的文檔集合進(jìn)行用這個(gè)集合內的所有文檔來(lái)進(jìn)行建模預測,得到更精確的權重。9.線(xiàn)性代數:可以根據有效詞條詞的相似性建模,利用實(shí)驗數據進(jìn)行推斷。10.svd:densityfunction的變種,在做降維之前,先要把量級做分解,分解之后得到的density可以用來(lái)做densityfunction的推斷。
11.表征學(xué)習:基于傳統的word2vec得到更高的概率模型,來(lái)推斷出詞向量和詞符。12.bn:利用不同的標簽來(lái)選擇不同的label,減少方差。13.pki:詞向量的pca。14.引導提示:根據一些有特殊使用要求的詞匯,告訴用戶(hù)在哪些位置有它。
三、隱語(yǔ)義檢索方法15.copy+replace:基于詞的相似度匹配,
0)相似度較高;replace就是其后續文章和原文章相似度較高。
四、規則結合排序方法16.分詞,主流方法包括word2vec加中文分詞模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
1)詞頻分析(即詞量主要維度的文檔頻次)
2)相似性度量(主要包括:詞匯詞向量)
3)向量表示(主要有詞向量、詞向量xfilter、詞向量x+lda、lda-tf、相似矩陣等)
4)詞嵌入17.強化學(xué)習中的prediction_gradient方法18.針對每個(gè)候選詞,利用詞嵌入,利用特征向量,