
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有哪些?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 532 次瀏覽 ? 2022-09-20 16:25
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有“詞向量法”“候選詞引導法”以及各種變形方法等。每種搜索引擎都有相對應的檢索策略,自然搜索引擎的檢索策略更加復雜,標準不一,其中包括網(wǎng)頁(yè)的檢索與分類(lèi)、候選詞檢索、關(guān)鍵詞分析等。
一、webtopic的檢索方法1.首先是常用的基于文檔的方法,
3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(獨熱圖)搜索,即可以通過(guò)比較兩個(gè)文檔找到topics,對獨熱圖進(jìn)行匹配,從而讓用戶(hù)找到最佳檢索結果。4.geohash,是去掉了所有相同點(diǎn)的余弦值來(lái)估計稀疏性。
5.winding搜索:對于從文檔中提取有關(guān)詞進(jìn)行匹配,利用hardn-grams對top-kkeywords進(jìn)行分類(lèi),從而找到下一個(gè)、甚至最可能的topkeywords。6.springerqualitycontrol:標注namematching。springerqualitycontrol是做有關(guān)詞進(jìn)行質(zhì)量判斷的,判斷用戶(hù)是否產(chǎn)生搜索的前后文,從而找到合理的搜索結果。7.repinding:是一種通過(guò)比較匹配詞和不匹配詞的關(guān)鍵詞在詞庫中的位置來(lái)進(jìn)行檢索的方法。
二、根據檢索規則進(jìn)行信息檢索策略8.邏輯回歸:可以對給定的文檔集合進(jìn)行用這個(gè)集合內的所有文檔來(lái)進(jìn)行建模預測,得到更精確的權重。9.線(xiàn)性代數:可以根據有效詞條詞的相似性建模,利用實(shí)驗數據進(jìn)行推斷。10.svd:densityfunction的變種,在做降維之前,先要把量級做分解,分解之后得到的density可以用來(lái)做densityfunction的推斷。
11.表征學(xué)習:基于傳統的word2vec得到更高的概率模型,來(lái)推斷出詞向量和詞符。12.bn:利用不同的標簽來(lái)選擇不同的label,減少方差。13.pki:詞向量的pca。14.引導提示:根據一些有特殊使用要求的詞匯,告訴用戶(hù)在哪些位置有它。
三、隱語(yǔ)義檢索方法15.copy+replace:基于詞的相似度匹配,
0)相似度較高;replace就是其后續文章和原文章相似度較高。
四、規則結合排序方法16.分詞,主流方法包括word2vec加中文分詞模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
1)詞頻分析(即詞量主要維度的文檔頻次)
2)相似性度量(主要包括:詞匯詞向量)
3)向量表示(主要有詞向量、詞向量xfilter、詞向量x+lda、lda-tf、相似矩陣等)
4)詞嵌入17.強化學(xué)習中的prediction_gradient方法18.針對每個(gè)候選詞,利用詞嵌入,利用特征向量, 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有哪些?
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有“詞向量法”“候選詞引導法”以及各種變形方法等。每種搜索引擎都有相對應的檢索策略,自然搜索引擎的檢索策略更加復雜,標準不一,其中包括網(wǎng)頁(yè)的檢索與分類(lèi)、候選詞檢索、關(guān)鍵詞分析等。
一、webtopic的檢索方法1.首先是常用的基于文檔的方法,
3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(獨熱圖)搜索,即可以通過(guò)比較兩個(gè)文檔找到topics,對獨熱圖進(jìn)行匹配,從而讓用戶(hù)找到最佳檢索結果。4.geohash,是去掉了所有相同點(diǎn)的余弦值來(lái)估計稀疏性。
5.winding搜索:對于從文檔中提取有關(guān)詞進(jìn)行匹配,利用hardn-grams對top-kkeywords進(jìn)行分類(lèi),從而找到下一個(gè)、甚至最可能的topkeywords。6.springerqualitycontrol:標注namematching。springerqualitycontrol是做有關(guān)詞進(jìn)行質(zhì)量判斷的,判斷用戶(hù)是否產(chǎn)生搜索的前后文,從而找到合理的搜索結果。7.repinding:是一種通過(guò)比較匹配詞和不匹配詞的關(guān)鍵詞在詞庫中的位置來(lái)進(jìn)行檢索的方法。

二、根據檢索規則進(jìn)行信息檢索策略8.邏輯回歸:可以對給定的文檔集合進(jìn)行用這個(gè)集合內的所有文檔來(lái)進(jìn)行建模預測,得到更精確的權重。9.線(xiàn)性代數:可以根據有效詞條詞的相似性建模,利用實(shí)驗數據進(jìn)行推斷。10.svd:densityfunction的變種,在做降維之前,先要把量級做分解,分解之后得到的density可以用來(lái)做densityfunction的推斷。
11.表征學(xué)習:基于傳統的word2vec得到更高的概率模型,來(lái)推斷出詞向量和詞符。12.bn:利用不同的標簽來(lái)選擇不同的label,減少方差。13.pki:詞向量的pca。14.引導提示:根據一些有特殊使用要求的詞匯,告訴用戶(hù)在哪些位置有它。
三、隱語(yǔ)義檢索方法15.copy+replace:基于詞的相似度匹配,
0)相似度較高;replace就是其后續文章和原文章相似度較高。

四、規則結合排序方法16.分詞,主流方法包括word2vec加中文分詞模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
1)詞頻分析(即詞量主要維度的文檔頻次)
2)相似性度量(主要包括:詞匯詞向量)
3)向量表示(主要有詞向量、詞向量xfilter、詞向量x+lda、lda-tf、相似矩陣等)
4)詞嵌入17.強化學(xué)習中的prediction_gradient方法18.針對每個(gè)候選詞,利用詞嵌入,利用特征向量,
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比、對比
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2022-09-19 23:05
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比搜索引擎進(jìn)行檢索優(yōu)化的方法
1)通過(guò)相關(guān)關(guān)鍵詞建立關(guān)鍵詞樹(shù),得到樹(shù)上節點(diǎn),每個(gè)節點(diǎn)上設置名稱(chēng)、描述以及域名,用于關(guān)鍵詞分類(lèi)。
2)對最近發(fā)現的關(guān)鍵詞進(jìn)行編號,當關(guān)鍵詞被查詢(xún)時(shí),查詢(xún)編號為最近發(fā)現的關(guān)鍵詞。
3)優(yōu)化關(guān)鍵詞樹(shù)。利用高亮規則和強制關(guān)鍵詞擴展(即自動(dòng)詞或者紅框元素)實(shí)現關(guān)鍵詞的高亮和自動(dòng)擴展。
4)關(guān)鍵詞在時(shí)間地點(diǎn)上的相關(guān)性選擇。如:設置timetask對關(guān)鍵詞提高查詢(xún)的相關(guān)性。
5)檢索高頻、熱門(mén)、常用關(guān)鍵詞,提高關(guān)鍵詞檢索的效率。
6)利用強制轉義、超鏈、重復、弱鏈、引用文本等提高關(guān)鍵詞檢索的效率。
7)聚類(lèi)分析,并用點(diǎn)分類(lèi)、區域聚類(lèi)等方法對檢索命中的關(guān)鍵詞進(jìn)行分類(lèi)。
簡(jiǎn)單說(shuō)就是如何找到優(yōu)質(zhì)的內容。1.簡(jiǎn)單檢索關(guān)鍵詞2.過(guò)濾掉冗余的內容,抓取高質(zhì)量,優(yōu)質(zhì)的內容3.搜索指定的或特定的關(guān)鍵詞。以上只是提供一個(gè)簡(jiǎn)單的思路。具體要學(xué)會(huì )如何從海量數據中去分析篩選出來(lái)你想要的內容,然后再學(xué)習如何分析數據,匹配內容,篩選優(yōu)質(zhì)的內容,抓取高質(zhì)量?jì)热?。再通過(guò)關(guān)鍵詞的布局,搜索方式的運用,排版等細節上去優(yōu)化,提高檢索效率。
是只按相關(guān)排序,還是通過(guò)分詞匹配到想要的文章?有人這么做。但是這不是優(yōu)化方法,如果只按相關(guān)排序,直接刪掉相關(guān)內容就行了,然后找到需要的文章。不相關(guān)怎么辦?如果是需要本專(zhuān)業(yè)方面的文章,可以看看某本書(shū)吧,那種專(zhuān)業(yè)性比較強的。就按相關(guān)篩選的方法篩選。如果是非相關(guān)的書(shū),可以用bigdatatoolkit直接搜索或者需要的文章搜索。 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比、對比
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比搜索引擎進(jìn)行檢索優(yōu)化的方法
1)通過(guò)相關(guān)關(guān)鍵詞建立關(guān)鍵詞樹(shù),得到樹(shù)上節點(diǎn),每個(gè)節點(diǎn)上設置名稱(chēng)、描述以及域名,用于關(guān)鍵詞分類(lèi)。
2)對最近發(fā)現的關(guān)鍵詞進(jìn)行編號,當關(guān)鍵詞被查詢(xún)時(shí),查詢(xún)編號為最近發(fā)現的關(guān)鍵詞。

3)優(yōu)化關(guān)鍵詞樹(shù)。利用高亮規則和強制關(guān)鍵詞擴展(即自動(dòng)詞或者紅框元素)實(shí)現關(guān)鍵詞的高亮和自動(dòng)擴展。
4)關(guān)鍵詞在時(shí)間地點(diǎn)上的相關(guān)性選擇。如:設置timetask對關(guān)鍵詞提高查詢(xún)的相關(guān)性。
5)檢索高頻、熱門(mén)、常用關(guān)鍵詞,提高關(guān)鍵詞檢索的效率。

6)利用強制轉義、超鏈、重復、弱鏈、引用文本等提高關(guān)鍵詞檢索的效率。
7)聚類(lèi)分析,并用點(diǎn)分類(lèi)、區域聚類(lèi)等方法對檢索命中的關(guān)鍵詞進(jìn)行分類(lèi)。
簡(jiǎn)單說(shuō)就是如何找到優(yōu)質(zhì)的內容。1.簡(jiǎn)單檢索關(guān)鍵詞2.過(guò)濾掉冗余的內容,抓取高質(zhì)量,優(yōu)質(zhì)的內容3.搜索指定的或特定的關(guān)鍵詞。以上只是提供一個(gè)簡(jiǎn)單的思路。具體要學(xué)會(huì )如何從海量數據中去分析篩選出來(lái)你想要的內容,然后再學(xué)習如何分析數據,匹配內容,篩選優(yōu)質(zhì)的內容,抓取高質(zhì)量?jì)热?。再通過(guò)關(guān)鍵詞的布局,搜索方式的運用,排版等細節上去優(yōu)化,提高檢索效率。
是只按相關(guān)排序,還是通過(guò)分詞匹配到想要的文章?有人這么做。但是這不是優(yōu)化方法,如果只按相關(guān)排序,直接刪掉相關(guān)內容就行了,然后找到需要的文章。不相關(guān)怎么辦?如果是需要本專(zhuān)業(yè)方面的文章,可以看看某本書(shū)吧,那種專(zhuān)業(yè)性比較強的。就按相關(guān)篩選的方法篩選。如果是非相關(guān)的書(shū),可以用bigdatatoolkit直接搜索或者需要的文章搜索。
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索算法的性能評估
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 181 次瀏覽 ? 2022-09-15 22:01
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索引擎的性能評估
1、最高速度搜索引擎查詢(xún)的時(shí)效性是搜索算法中最重要的一個(gè)評價(jià)指標。如何最高速度?一種辦法是追蹤歷史數據找出最可能有搜索排序結果的用戶(hù)行為軌跡,然后進(jìn)行定位。另一種方法是時(shí)間轉換方法,找出每分鐘內發(fā)生的次數最多的行為,然后聚類(lèi)分析,然后以時(shí)間順序進(jìn)行排序。
2、準確性搜索引擎可以將相關(guān)性指標(如相似度,匹配性等)與各個(gè)用戶(hù)行為因素進(jìn)行匹配,構成一個(gè)從1到n的排序規則。通過(guò)排序規則的設計能夠減小用戶(hù)搜索查詢(xún)、詞之間的關(guān)聯(lián)度,從而減少搜索結果庫中大量無(wú)效搜索,有利于優(yōu)化搜索結果,獲得更多高質(zhì)量的搜索結果。
3、支持率搜索引擎頁(yè)面每次下拉時(shí),包含什么條目最多,這將會(huì )影響用戶(hù)對頁(yè)面是否有用的點(diǎn)擊。為了減少用戶(hù)點(diǎn)擊率,搜索引擎需要將下拉包含的詞匯清空,如將多個(gè)詞匯分開(kāi)顯示,或者將展示的詞匯只限于主要使用的詞匯范圍內。
4、頻繁搜索搜索與相關(guān)性并不是相互獨立的,每個(gè)用戶(hù)在多次搜索的過(guò)程中都可能需要使用搜索所搜索的內容。因此一個(gè)正確的頻繁搜索策略至關(guān)重要。引擎設計者通常會(huì )將搜索結果排序分為各個(gè)頻繁搜索區間,根據用戶(hù)點(diǎn)擊的各個(gè)頻繁搜索區間的用戶(hù)數目(包括總點(diǎn)擊次數)計算下拉頻繁搜索的幾率。
5、網(wǎng)頁(yè)分布有關(guān)搜索引擎整體設計流程的研究的文章通常認為在數據流程中找到相關(guān)性最高的網(wǎng)頁(yè)相對較難,所以做相關(guān)性檢索通常會(huì )為網(wǎng)頁(yè)分布找到更有效的匹配方式。
6、網(wǎng)頁(yè)排序網(wǎng)頁(yè)排序即對網(wǎng)頁(yè)進(jìn)行排序,主要目的在于影響用戶(hù)下一次點(diǎn)擊的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的網(wǎng)頁(yè)排序策略。
7、用戶(hù)群體美國教育部搜索引擎中心發(fā)布了一份較大的用戶(hù)研究報告,稱(chēng)14%的人搜索、瀏覽、發(fā)送電子郵件,有28%的人觀(guān)看短視頻,在互聯(lián)網(wǎng)中訪(fǎng)問(wèn)了超過(guò)一百萬(wàn)個(gè)產(chǎn)品或服務(wù)。隨著(zhù)用戶(hù)在互聯(lián)網(wǎng)上的行為越來(lái)越多地發(fā)生變化,無(wú)論是搜索還是瀏覽網(wǎng)頁(yè),都在發(fā)生著(zhù)實(shí)際上的網(wǎng)絡(luò )行為,一個(gè)基于用戶(hù)數據的優(yōu)化搜索引擎能夠幫助搜索引擎的核心指標提高4~8個(gè)百分點(diǎn)。
8、搜索ip地址、時(shí)間、在線(xiàn)情況一個(gè)基于搜索的搜索引擎能夠幫助用戶(hù)優(yōu)化搜索查詢(xún)、帶來(lái)更多有價(jià)值的查詢(xún)、瀏覽更多的網(wǎng)頁(yè),甚至與已有網(wǎng)站進(jìn)行合作,發(fā)展具有互補性的服務(wù),并且在使用搜索引擎做行業(yè)搜索時(shí)使用一些特殊的搜索方法來(lái)找到與用戶(hù)搜索習慣、行業(yè)習慣、產(chǎn)品相關(guān)的數據。
9、相關(guān)性搜索查詢(xún)能夠優(yōu)化用戶(hù)在搜索引擎查詢(xún)頁(yè)的排序嗎?還是需要用戶(hù)首先在搜索引擎中查詢(xún)查詢(xún)之后, 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索算法的性能評估
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索引擎的性能評估
1、最高速度搜索引擎查詢(xún)的時(shí)效性是搜索算法中最重要的一個(gè)評價(jià)指標。如何最高速度?一種辦法是追蹤歷史數據找出最可能有搜索排序結果的用戶(hù)行為軌跡,然后進(jìn)行定位。另一種方法是時(shí)間轉換方法,找出每分鐘內發(fā)生的次數最多的行為,然后聚類(lèi)分析,然后以時(shí)間順序進(jìn)行排序。
2、準確性搜索引擎可以將相關(guān)性指標(如相似度,匹配性等)與各個(gè)用戶(hù)行為因素進(jìn)行匹配,構成一個(gè)從1到n的排序規則。通過(guò)排序規則的設計能夠減小用戶(hù)搜索查詢(xún)、詞之間的關(guān)聯(lián)度,從而減少搜索結果庫中大量無(wú)效搜索,有利于優(yōu)化搜索結果,獲得更多高質(zhì)量的搜索結果。

3、支持率搜索引擎頁(yè)面每次下拉時(shí),包含什么條目最多,這將會(huì )影響用戶(hù)對頁(yè)面是否有用的點(diǎn)擊。為了減少用戶(hù)點(diǎn)擊率,搜索引擎需要將下拉包含的詞匯清空,如將多個(gè)詞匯分開(kāi)顯示,或者將展示的詞匯只限于主要使用的詞匯范圍內。
4、頻繁搜索搜索與相關(guān)性并不是相互獨立的,每個(gè)用戶(hù)在多次搜索的過(guò)程中都可能需要使用搜索所搜索的內容。因此一個(gè)正確的頻繁搜索策略至關(guān)重要。引擎設計者通常會(huì )將搜索結果排序分為各個(gè)頻繁搜索區間,根據用戶(hù)點(diǎn)擊的各個(gè)頻繁搜索區間的用戶(hù)數目(包括總點(diǎn)擊次數)計算下拉頻繁搜索的幾率。
5、網(wǎng)頁(yè)分布有關(guān)搜索引擎整體設計流程的研究的文章通常認為在數據流程中找到相關(guān)性最高的網(wǎng)頁(yè)相對較難,所以做相關(guān)性檢索通常會(huì )為網(wǎng)頁(yè)分布找到更有效的匹配方式。

6、網(wǎng)頁(yè)排序網(wǎng)頁(yè)排序即對網(wǎng)頁(yè)進(jìn)行排序,主要目的在于影響用戶(hù)下一次點(diǎn)擊的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的網(wǎng)頁(yè)排序策略。
7、用戶(hù)群體美國教育部搜索引擎中心發(fā)布了一份較大的用戶(hù)研究報告,稱(chēng)14%的人搜索、瀏覽、發(fā)送電子郵件,有28%的人觀(guān)看短視頻,在互聯(lián)網(wǎng)中訪(fǎng)問(wèn)了超過(guò)一百萬(wàn)個(gè)產(chǎn)品或服務(wù)。隨著(zhù)用戶(hù)在互聯(lián)網(wǎng)上的行為越來(lái)越多地發(fā)生變化,無(wú)論是搜索還是瀏覽網(wǎng)頁(yè),都在發(fā)生著(zhù)實(shí)際上的網(wǎng)絡(luò )行為,一個(gè)基于用戶(hù)數據的優(yōu)化搜索引擎能夠幫助搜索引擎的核心指標提高4~8個(gè)百分點(diǎn)。
8、搜索ip地址、時(shí)間、在線(xiàn)情況一個(gè)基于搜索的搜索引擎能夠幫助用戶(hù)優(yōu)化搜索查詢(xún)、帶來(lái)更多有價(jià)值的查詢(xún)、瀏覽更多的網(wǎng)頁(yè),甚至與已有網(wǎng)站進(jìn)行合作,發(fā)展具有互補性的服務(wù),并且在使用搜索引擎做行業(yè)搜索時(shí)使用一些特殊的搜索方法來(lái)找到與用戶(hù)搜索習慣、行業(yè)習慣、產(chǎn)品相關(guān)的數據。
9、相關(guān)性搜索查詢(xún)能夠優(yōu)化用戶(hù)在搜索引擎查詢(xún)頁(yè)的排序嗎?還是需要用戶(hù)首先在搜索引擎中查詢(xún)查詢(xún)之后,
sql 語(yǔ)句優(yōu)化的30種方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2022-09-03 21:08
大家好,我是頂級架構師。
1.對查詢(xún)進(jìn)行優(yōu)化,應盡量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。2.應盡量避免在 where 子句中使用!=或操作符,否則將引擎放棄使用索引而進(jìn)行全表掃描。3.應盡量避免在 where 子句中對字段進(jìn)行 null 值判斷,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num?is?null?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以在num上設置默認值0,確保表中num列沒(méi)有null值,然后這樣查詢(xún):
select?id?from?t?where?num=0?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
4.應盡量避免在 where 子句中使用 or 來(lái)連接條件,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num=10?or?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以這樣查詢(xún):
select?id?from?t?where?num=10?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union?all?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
5.下面的查詢(xún)也將導致全表掃描:
select?id?from?t?where?name?like?'%abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
若要提高效率,可以考慮全文檢索。
6.in 和 not in 也要慎用,否則會(huì )導致全表掃描,如:
select?id?from?t?where?num?in(1,2,3)?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
對于連續的數值,能用 between 就不要用 in 了:
select?id?from?t?where?num?between?1?and?3?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
7.如果在 where 子句中使用參數,也會(huì )導致全表掃描。因為SQL只有在運行時(shí)才會(huì )解析局部變量,但優(yōu)化程序不能將訪(fǎng)問(wèn)計劃的選擇推遲到運行時(shí);它必須在編譯時(shí)進(jìn)行選擇。然而,如果在編譯時(shí)建立訪(fǎng)問(wèn)計劃,變量的值還是未知的,因而無(wú)法作為索引選擇的輸入項。如下面語(yǔ)句將進(jìn)行全表掃描:
select?id?from?t?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
可以改為強制查詢(xún)使用索引:
select?id?from?t?with(index(索引名))?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
8.應盡量避免在 where 子句中對字段進(jìn)行表達式操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?num/2=100?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
select?id?from?t?where?num=100*2?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
9.應盡量避免在where子句中對字段進(jìn)行函數操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?substring(name,1,3)='abc'--name以abc開(kāi)頭的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
<p>select?id?from?t?where?name?like?'abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?createdate>='2005-11-30'?and?createdate 查看全部
sql 語(yǔ)句優(yōu)化的30種方法
大家好,我是頂級架構師。
1.對查詢(xún)進(jìn)行優(yōu)化,應盡量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。2.應盡量避免在 where 子句中使用!=或操作符,否則將引擎放棄使用索引而進(jìn)行全表掃描。3.應盡量避免在 where 子句中對字段進(jìn)行 null 值判斷,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num?is?null?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以在num上設置默認值0,確保表中num列沒(méi)有null值,然后這樣查詢(xún):
select?id?from?t?where?num=0?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
4.應盡量避免在 where 子句中使用 or 來(lái)連接條件,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num=10?or?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以這樣查詢(xún):
select?id?from?t?where?num=10?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union?all?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
5.下面的查詢(xún)也將導致全表掃描:
select?id?from?t?where?name?like?'%abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
若要提高效率,可以考慮全文檢索。
6.in 和 not in 也要慎用,否則會(huì )導致全表掃描,如:
select?id?from?t?where?num?in(1,2,3)?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
對于連續的數值,能用 between 就不要用 in 了:

select?id?from?t?where?num?between?1?and?3?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
7.如果在 where 子句中使用參數,也會(huì )導致全表掃描。因為SQL只有在運行時(shí)才會(huì )解析局部變量,但優(yōu)化程序不能將訪(fǎng)問(wèn)計劃的選擇推遲到運行時(shí);它必須在編譯時(shí)進(jìn)行選擇。然而,如果在編譯時(shí)建立訪(fǎng)問(wèn)計劃,變量的值還是未知的,因而無(wú)法作為索引選擇的輸入項。如下面語(yǔ)句將進(jìn)行全表掃描:
select?id?from?t?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
可以改為強制查詢(xún)使用索引:
select?id?from?t?with(index(索引名))?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
8.應盡量避免在 where 子句中對字段進(jìn)行表達式操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?num/2=100?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
select?id?from?t?where?num=100*2?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
9.應盡量避免在where子句中對字段進(jìn)行函數操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?substring(name,1,3)='abc'--name以abc開(kāi)頭的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
<p>select?id?from?t?where?name?like?'abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?createdate>='2005-11-30'?and?createdate
網(wǎng)站推廣主要有哪些方法?網(wǎng)站推廣有哪些注意事項?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-08-02 04:49
網(wǎng)站推廣是網(wǎng)絡(luò )營(yíng)銷(xiāo)推廣中非常重要的一個(gè)組成部分,如果企業(yè)決定做網(wǎng)絡(luò )營(yíng)銷(xiāo)的話(huà),那網(wǎng)站推廣也是繞不開(kāi)的,本文就帶大家一起來(lái)了解一下網(wǎng)站推廣主要有哪些方法?
一、網(wǎng)站推廣主要有哪些方法?
1、搜索引擎推廣方法
搜索引擎推廣是指利用搜索引擎、分類(lèi)目錄等具有在線(xiàn)檢索信息功能的網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方法。
2、電子郵件推廣方法
以電子郵件為主要的網(wǎng)站推廣手段,常用的方法包括電子刊物、會(huì )員通訊、專(zhuān)業(yè)服務(wù)商的電子郵件廣告等。
3、資源合作推廣方法
通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,在具有類(lèi)似目標網(wǎng)站之間實(shí)現互相推廣的目的,其中最常用的資源合作方式為網(wǎng)站鏈接策略,利用合作伙伴之間網(wǎng)站訪(fǎng)問(wèn)量資源合作互為推廣。
4、信息發(fā)布推廣方法
將有關(guān)的網(wǎng)站推廣信息發(fā)布在其他潛在用戶(hù)可能訪(fǎng)問(wèn)的網(wǎng)站上,利用用戶(hù)在這些網(wǎng)站獲取信息的機會(huì )實(shí)現網(wǎng)站推廣的目的,適用于這些信息發(fā)布的網(wǎng)站包括在線(xiàn)黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等。
5、網(wǎng)絡(luò )廣告推廣方法
網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌、產(chǎn)品促銷(xiāo)、網(wǎng)站推廣等方面均有明顯作用。網(wǎng)絡(luò )廣告的常見(jiàn)形式包括:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助式廣告、Email廣告等。
二、網(wǎng)站推廣有哪些注意事項?
1、不要把導航做成圖片鏈接
因為搜索引擎是一個(gè)大型數據庫,而不是一個(gè)圖片庫,搜索引擎首頁(yè)搜索引擎到的是你的標題,然后接著(zhù)才通過(guò)你的導航系統搜索到你網(wǎng)站的其他內頁(yè)。
2、首頁(yè)不能為了美觀(guān)而大量使用圖片
所有的搜索引擎都喜歡有一個(gè)清晰的結構,而不喜歡把網(wǎng)站做成一張皮,讓搜索引擎分不清你的重點(diǎn)所在。因此,一個(gè)清晰地網(wǎng)站結構和連接結構對于蜘蛛爬行和收錄是非常重要的。
3、外鏈平臺的選擇及發(fā)布
發(fā)布鏈的作用是為了給網(wǎng)站導流、增加網(wǎng)站的曝光度。有些人為了圖完成任務(wù)、短期內見(jiàn)效果,就一味的、大量的發(fā)布外鏈文章(在文章中添加目標網(wǎng)站的URL鏈接和關(guān)鍵詞的堆砌)等等,這個(gè)會(huì )適得其反,嚴重會(huì )影響網(wǎng)站的排名和權重。因此,外鏈文章是一個(gè)長(cháng)期的積累過(guò)程,不要求快、求量,還是需要有個(gè)度。
三、網(wǎng)站推廣有哪些好處?
1、提高企業(yè)的知名度
大多企業(yè)都是小型的企業(yè),沒(méi)有什么知名度,所以要結合互聯(lián)網(wǎng)網(wǎng)絡(luò )推廣進(jìn)行對企業(yè)的品牌提升的同時(shí)把企業(yè)的知名度提升上去,讓更多的人群知道。
2、增加用戶(hù)粘度
客戶(hù)購買(mǎi)企業(yè)的產(chǎn)品,對產(chǎn)品的質(zhì)量等方面都認可,就會(huì )認準企業(yè)的這個(gè)產(chǎn)品,所以客戶(hù)會(huì )對企業(yè)產(chǎn)生一種依賴(lài)性同時(shí)粘度也增加了不少。
3、長(cháng)期的穩定性
企業(yè)通過(guò)長(cháng)期的推廣和網(wǎng)絡(luò )營(yíng)銷(xiāo),會(huì )使企業(yè)的網(wǎng)站穩定性增加,網(wǎng)絡(luò )推廣不是短期就能出現效果的是需要通過(guò)長(cháng)期的維護和優(yōu)化進(jìn)行運行才能體現的。
4、增加產(chǎn)品的銷(xiāo)售
網(wǎng)站進(jìn)行維護和優(yōu)化后能達到銷(xiāo)售產(chǎn)品就是網(wǎng)絡(luò )推廣的最終目的。呈現出企業(yè)網(wǎng)絡(luò )雙共贏(yíng)的局面。
可以聯(lián)系小編
百度廣告前三,包月推廣,當天上線(xiàn),不限點(diǎn)擊費,1500元/月,2800元/一季度,需要的請聯(lián)系小編 查看全部
網(wǎng)站推廣主要有哪些方法?網(wǎng)站推廣有哪些注意事項?
網(wǎng)站推廣是網(wǎng)絡(luò )營(yíng)銷(xiāo)推廣中非常重要的一個(gè)組成部分,如果企業(yè)決定做網(wǎng)絡(luò )營(yíng)銷(xiāo)的話(huà),那網(wǎng)站推廣也是繞不開(kāi)的,本文就帶大家一起來(lái)了解一下網(wǎng)站推廣主要有哪些方法?
一、網(wǎng)站推廣主要有哪些方法?
1、搜索引擎推廣方法
搜索引擎推廣是指利用搜索引擎、分類(lèi)目錄等具有在線(xiàn)檢索信息功能的網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方法。
2、電子郵件推廣方法
以電子郵件為主要的網(wǎng)站推廣手段,常用的方法包括電子刊物、會(huì )員通訊、專(zhuān)業(yè)服務(wù)商的電子郵件廣告等。
3、資源合作推廣方法
通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,在具有類(lèi)似目標網(wǎng)站之間實(shí)現互相推廣的目的,其中最常用的資源合作方式為網(wǎng)站鏈接策略,利用合作伙伴之間網(wǎng)站訪(fǎng)問(wèn)量資源合作互為推廣。
4、信息發(fā)布推廣方法
將有關(guān)的網(wǎng)站推廣信息發(fā)布在其他潛在用戶(hù)可能訪(fǎng)問(wèn)的網(wǎng)站上,利用用戶(hù)在這些網(wǎng)站獲取信息的機會(huì )實(shí)現網(wǎng)站推廣的目的,適用于這些信息發(fā)布的網(wǎng)站包括在線(xiàn)黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等。

5、網(wǎng)絡(luò )廣告推廣方法
網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌、產(chǎn)品促銷(xiāo)、網(wǎng)站推廣等方面均有明顯作用。網(wǎng)絡(luò )廣告的常見(jiàn)形式包括:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助式廣告、Email廣告等。
二、網(wǎng)站推廣有哪些注意事項?
1、不要把導航做成圖片鏈接
因為搜索引擎是一個(gè)大型數據庫,而不是一個(gè)圖片庫,搜索引擎首頁(yè)搜索引擎到的是你的標題,然后接著(zhù)才通過(guò)你的導航系統搜索到你網(wǎng)站的其他內頁(yè)。
2、首頁(yè)不能為了美觀(guān)而大量使用圖片
所有的搜索引擎都喜歡有一個(gè)清晰的結構,而不喜歡把網(wǎng)站做成一張皮,讓搜索引擎分不清你的重點(diǎn)所在。因此,一個(gè)清晰地網(wǎng)站結構和連接結構對于蜘蛛爬行和收錄是非常重要的。
3、外鏈平臺的選擇及發(fā)布
發(fā)布鏈的作用是為了給網(wǎng)站導流、增加網(wǎng)站的曝光度。有些人為了圖完成任務(wù)、短期內見(jiàn)效果,就一味的、大量的發(fā)布外鏈文章(在文章中添加目標網(wǎng)站的URL鏈接和關(guān)鍵詞的堆砌)等等,這個(gè)會(huì )適得其反,嚴重會(huì )影響網(wǎng)站的排名和權重。因此,外鏈文章是一個(gè)長(cháng)期的積累過(guò)程,不要求快、求量,還是需要有個(gè)度。

三、網(wǎng)站推廣有哪些好處?
1、提高企業(yè)的知名度
大多企業(yè)都是小型的企業(yè),沒(méi)有什么知名度,所以要結合互聯(lián)網(wǎng)網(wǎng)絡(luò )推廣進(jìn)行對企業(yè)的品牌提升的同時(shí)把企業(yè)的知名度提升上去,讓更多的人群知道。
2、增加用戶(hù)粘度
客戶(hù)購買(mǎi)企業(yè)的產(chǎn)品,對產(chǎn)品的質(zhì)量等方面都認可,就會(huì )認準企業(yè)的這個(gè)產(chǎn)品,所以客戶(hù)會(huì )對企業(yè)產(chǎn)生一種依賴(lài)性同時(shí)粘度也增加了不少。
3、長(cháng)期的穩定性
企業(yè)通過(guò)長(cháng)期的推廣和網(wǎng)絡(luò )營(yíng)銷(xiāo),會(huì )使企業(yè)的網(wǎng)站穩定性增加,網(wǎng)絡(luò )推廣不是短期就能出現效果的是需要通過(guò)長(cháng)期的維護和優(yōu)化進(jìn)行運行才能體現的。
4、增加產(chǎn)品的銷(xiāo)售
網(wǎng)站進(jìn)行維護和優(yōu)化后能達到銷(xiāo)售產(chǎn)品就是網(wǎng)絡(luò )推廣的最終目的。呈現出企業(yè)網(wǎng)絡(luò )雙共贏(yíng)的局面。
可以聯(lián)系小編
百度廣告前三,包月推廣,當天上線(xiàn),不限點(diǎn)擊費,1500元/月,2800元/一季度,需要的請聯(lián)系小編
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-樂(lè )題庫
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-07-31 06:01
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.檢索詞的創(chuàng )造。不斷擴充檢索詞庫,廣泛采用長(cháng)尾關(guān)鍵詞的詞頻詞庫,將在檢索詞庫內的搜索長(cháng)尾關(guān)鍵詞置于檢索詞條前面,用于制造檢索詞條。將搜索長(cháng)尾關(guān)鍵詞過(guò)濾成用于檢索詞條的關(guān)鍵詞2.關(guān)鍵詞的排列組合,用分詞技術(shù)(主要是漢語(yǔ)語(yǔ)料庫詞庫),形成智能詞庫,用詞頻分詞把檢索內容進(jìn)行分割,分成多個(gè)組合查詢(xún),每組查詢(xún)內再查詢(xún),形成一個(gè)查詢(xún)樹(shù)。
這樣檢索詞可以形成一個(gè)樹(shù)狀結構3.檢索詞與關(guān)鍵詞的廣泛匹配4.提高檢索詞的優(yōu)先級:與關(guān)鍵詞匹配的多個(gè)檢索詞要權重相等,從而使檢索的字詞密度提高。5.檢索結果不斷進(jìn)行存儲,形成索引庫,形成后續檢索6.提供索引詞索引方式:利用兩個(gè)或多個(gè)表的extra_info()方法提供檢索詞的索引方式選擇。
檢索排序就是檢索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改變的。其中key字段對序號(in-nametable的middle)和orderby長(cháng)度有限制,value字段則是最多5個(gè)(取決于middle和valuelength的相同部分)。
主要因為,如果一個(gè)字段的排序方式不是按照字典里的次序排序,那么我們就不能繼續利用這個(gè)字段了。舉個(gè)栗子:比如adj.的英文是advanced(達到了高級)。這個(gè)advanced既可以用字典表示,也可以用頻數表示,還可以用權重表示??傊写罅康淖龇?。再舉個(gè)栗子:比如["some","somea","more","morebs"]的英文組合是someasome(達到了高級),有些情況下somemorearesome(達到了高級).此時(shí)我們也可以將這個(gè)字段作為索引的一部分來(lái)操作。
此時(shí)就要確定,some也好,somea也好,more也好,他們分別表示的是誰(shuí),而這些我們是不可能用undefined來(lái)取代的。 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-樂(lè )題庫
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.檢索詞的創(chuàng )造。不斷擴充檢索詞庫,廣泛采用長(cháng)尾關(guān)鍵詞的詞頻詞庫,將在檢索詞庫內的搜索長(cháng)尾關(guān)鍵詞置于檢索詞條前面,用于制造檢索詞條。將搜索長(cháng)尾關(guān)鍵詞過(guò)濾成用于檢索詞條的關(guān)鍵詞2.關(guān)鍵詞的排列組合,用分詞技術(shù)(主要是漢語(yǔ)語(yǔ)料庫詞庫),形成智能詞庫,用詞頻分詞把檢索內容進(jìn)行分割,分成多個(gè)組合查詢(xún),每組查詢(xún)內再查詢(xún),形成一個(gè)查詢(xún)樹(shù)。

這樣檢索詞可以形成一個(gè)樹(shù)狀結構3.檢索詞與關(guān)鍵詞的廣泛匹配4.提高檢索詞的優(yōu)先級:與關(guān)鍵詞匹配的多個(gè)檢索詞要權重相等,從而使檢索的字詞密度提高。5.檢索結果不斷進(jìn)行存儲,形成索引庫,形成后續檢索6.提供索引詞索引方式:利用兩個(gè)或多個(gè)表的extra_info()方法提供檢索詞的索引方式選擇。
檢索排序就是檢索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改變的。其中key字段對序號(in-nametable的middle)和orderby長(cháng)度有限制,value字段則是最多5個(gè)(取決于middle和valuelength的相同部分)。

主要因為,如果一個(gè)字段的排序方式不是按照字典里的次序排序,那么我們就不能繼續利用這個(gè)字段了。舉個(gè)栗子:比如adj.的英文是advanced(達到了高級)。這個(gè)advanced既可以用字典表示,也可以用頻數表示,還可以用權重表示??傊写罅康淖龇?。再舉個(gè)栗子:比如["some","somea","more","morebs"]的英文組合是someasome(達到了高級),有些情況下somemorearesome(達到了高級).此時(shí)我們也可以將這個(gè)字段作為索引的一部分來(lái)操作。
此時(shí)就要確定,some也好,somea也好,more也好,他們分別表示的是誰(shuí),而這些我們是不可能用undefined來(lái)取代的。
科學(xué) · 新書(shū) | 《信息檢索與利用(第四版)》正式出版
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-06-24 02:16
信息化時(shí)代,瞬息萬(wàn)變的信息,已成為社會(huì )經(jīng)濟發(fā)展的重要因素。進(jìn)入互聯(lián)網(wǎng)時(shí)代,社交媒體和各種 APP 的廣泛使用,使信息可以更為便捷地獲取,但要獲得“有用的知識”,似乎變得更難。面對紛繁無(wú)序的網(wǎng)絡(luò ),如何高效、準確地查找所需要的信息,是每一個(gè)人都無(wú)法回避的問(wèn)題,誰(shuí)的“搜商”高,誰(shuí)就更有可能抓住機遇;同時(shí),信息安全和隱私保護也變得越來(lái)越重要。所以,信息檢索能力既是一種素養,更是一種生活技能。
新形態(tài)教材
國家精品課程配套教材
國家級精品資源共享課配套教材
《信息檢索與利用(第四版)》
鄧發(fā)云 編著(zhù)
書(shū)號:9787030713650
定價(jià):39.8元
出版時(shí)間:2022年5月
內容簡(jiǎn)介:本書(shū)系統地介紹信息素養、信息資源、信息檢索及其應用的基本知識,以及各種常用檢索工具的檢索方法與技巧,提供了大量的案例、圖表、思考與訓練、研討與訓練、基于檢索技巧的提示等,圖文并茂,便于教學(xué)與閱讀。
本書(shū)既可作為高等學(xué)校本科生、研究生的“信息檢索”課程教材與各類(lèi)信息機構的崗位培訓教材,也可作為工程技術(shù)人員、科研人員、教師從事信息檢索時(shí)的參考書(shū)。
作者建議
信息素養是一種生活技能,為了讀者更好地理解與使用本教材,有效地培養良好的信息素養和學(xué)習、適應能力,編者建議在使用中把握以下幾點(diǎn)。
強化 1 個(gè)信息意識。學(xué)會(huì )通過(guò)信息理解世界、溝通世界,學(xué)會(huì )通過(guò)信息檢索擴展自己的認知;任何時(shí)候遇到任何事情都能通過(guò)檢索、咨詢(xún)已有的經(jīng)驗教訓,優(yōu)化自己的決策方案,減少不確定性。無(wú)論購物、旅游、交友、找工作、科學(xué)研究,都養成一個(gè)收集資料、幫助自己分析的習慣。
注重 2 個(gè)能力培養。一是培養分析問(wèn)題和解決問(wèn)題的能力,既包括通過(guò)查詢(xún)他人的或已有的歷史成果與文獻資料尋求答案或者激發(fā)靈感,也包括通過(guò)信息檢索完善分析問(wèn)題的框架、邏輯與思路;二是能夠通過(guò)信息檢索找到自己的目標與方向,進(jìn)行規劃與預測,從而構建適合自己學(xué)習、工作、生活、科研的信息環(huán)境,包括信息資源、平臺、機構及其獲取渠道。
進(jìn)行 3 種基本知識訓練。一是掌握檢索基本技術(shù),包括邏輯組配、截詞、字段選擇、精確模糊匹配、檢索詞選??;二是了解常用資源、平臺、工具,資源如中國知網(wǎng)、萬(wàn)方數據、SCI、SDOS、IEL,平臺如本校圖書(shū)館、國家圖書(shū)館、CALIS、NSTL,工具如館藏目錄、搜索引擎、資源發(fā)現系統等;三是掌握常用檢索方法,包括檢索詞選取、基本檢索流程、檢索策略調整、排序、分類(lèi)與下載,能夠將檢索結果有效地融入需要解決的問(wèn)題中。
不斷激發(fā)信息需求并通過(guò)檢索滿(mǎn)足信息需求,從本質(zhì)而言,信息檢索是一種匹配和選擇,是信息需求與檢索結果的匹配。信息需求決定檢索工具、檢索方式的選擇。常識、大眾化、新聞、娛樂(lè )信息可用搜索引擎檢索;專(zhuān)利、標準與統計信息可從發(fā)布機構的網(wǎng)站檢索;學(xué)術(shù)科研信息可用數據庫檢索。復雜、精確的需求可采用高級檢索方式;模糊、簡(jiǎn)單的需求可采用簡(jiǎn)單檢索方式。檢索工具的功能設計(檢索選項或檢索框)正是用來(lái)滿(mǎn)足各種需求的,靈活運用各種檢索功能能夠有效提高檢索效率。從過(guò)程而言,信息檢索是需求的明晰與調整,只有在檢索的過(guò)程中,才能體會(huì )與領(lǐng)悟到檢索的意義和樂(lè )趣;只有把學(xué)習、工作、生活與科研遇到的各種問(wèn)題通過(guò)信息檢索的途徑解決,才能不斷提高信息意識與檢索技能,因此學(xué)好信息檢索必須經(jīng)過(guò)大量的實(shí)踐訓練。
本書(shū)特色
?。?)將信息需求與信息檢索結合起來(lái),將十多位作者關(guān)于信息檢索與利用的多年經(jīng)驗及技巧貫穿其中。
?。?)補充了新的內容:從國家、企業(yè)、個(gè)人層面介紹信息安全,從思維角度介紹網(wǎng)絡(luò )資源檢索技巧,從學(xué)習角度介紹數據獲取,從使用角度介紹創(chuàng )新創(chuàng )業(yè)的信息資源。
?。?)增加了學(xué)生參與的內容,包括每章提供1~3個(gè)研討與訓練,針對16學(xué)時(shí)和32學(xué)時(shí)課程的不同上機練習題等。
?。?)通過(guò)二維碼鏈接視頻等數字資源,便于深化學(xué)習。
目 錄
購書(shū)鏈接
京東
當當網(wǎng)
相關(guān)課程授課教師
可通過(guò)微信公眾號“科學(xué)EDU”
在線(xiàn)申請教學(xué)樣書(shū)
更多教學(xué)服務(wù) 查看全部
科學(xué) · 新書(shū) | 《信息檢索與利用(第四版)》正式出版
信息化時(shí)代,瞬息萬(wàn)變的信息,已成為社會(huì )經(jīng)濟發(fā)展的重要因素。進(jìn)入互聯(lián)網(wǎng)時(shí)代,社交媒體和各種 APP 的廣泛使用,使信息可以更為便捷地獲取,但要獲得“有用的知識”,似乎變得更難。面對紛繁無(wú)序的網(wǎng)絡(luò ),如何高效、準確地查找所需要的信息,是每一個(gè)人都無(wú)法回避的問(wèn)題,誰(shuí)的“搜商”高,誰(shuí)就更有可能抓住機遇;同時(shí),信息安全和隱私保護也變得越來(lái)越重要。所以,信息檢索能力既是一種素養,更是一種生活技能。
新形態(tài)教材
國家精品課程配套教材
國家級精品資源共享課配套教材
《信息檢索與利用(第四版)》
鄧發(fā)云 編著(zhù)
書(shū)號:9787030713650
定價(jià):39.8元
出版時(shí)間:2022年5月
內容簡(jiǎn)介:本書(shū)系統地介紹信息素養、信息資源、信息檢索及其應用的基本知識,以及各種常用檢索工具的檢索方法與技巧,提供了大量的案例、圖表、思考與訓練、研討與訓練、基于檢索技巧的提示等,圖文并茂,便于教學(xué)與閱讀。
本書(shū)既可作為高等學(xué)校本科生、研究生的“信息檢索”課程教材與各類(lèi)信息機構的崗位培訓教材,也可作為工程技術(shù)人員、科研人員、教師從事信息檢索時(shí)的參考書(shū)。
作者建議
信息素養是一種生活技能,為了讀者更好地理解與使用本教材,有效地培養良好的信息素養和學(xué)習、適應能力,編者建議在使用中把握以下幾點(diǎn)。
強化 1 個(gè)信息意識。學(xué)會(huì )通過(guò)信息理解世界、溝通世界,學(xué)會(huì )通過(guò)信息檢索擴展自己的認知;任何時(shí)候遇到任何事情都能通過(guò)檢索、咨詢(xún)已有的經(jīng)驗教訓,優(yōu)化自己的決策方案,減少不確定性。無(wú)論購物、旅游、交友、找工作、科學(xué)研究,都養成一個(gè)收集資料、幫助自己分析的習慣。
注重 2 個(gè)能力培養。一是培養分析問(wèn)題和解決問(wèn)題的能力,既包括通過(guò)查詢(xún)他人的或已有的歷史成果與文獻資料尋求答案或者激發(fā)靈感,也包括通過(guò)信息檢索完善分析問(wèn)題的框架、邏輯與思路;二是能夠通過(guò)信息檢索找到自己的目標與方向,進(jìn)行規劃與預測,從而構建適合自己學(xué)習、工作、生活、科研的信息環(huán)境,包括信息資源、平臺、機構及其獲取渠道。
進(jìn)行 3 種基本知識訓練。一是掌握檢索基本技術(shù),包括邏輯組配、截詞、字段選擇、精確模糊匹配、檢索詞選??;二是了解常用資源、平臺、工具,資源如中國知網(wǎng)、萬(wàn)方數據、SCI、SDOS、IEL,平臺如本校圖書(shū)館、國家圖書(shū)館、CALIS、NSTL,工具如館藏目錄、搜索引擎、資源發(fā)現系統等;三是掌握常用檢索方法,包括檢索詞選取、基本檢索流程、檢索策略調整、排序、分類(lèi)與下載,能夠將檢索結果有效地融入需要解決的問(wèn)題中。
不斷激發(fā)信息需求并通過(guò)檢索滿(mǎn)足信息需求,從本質(zhì)而言,信息檢索是一種匹配和選擇,是信息需求與檢索結果的匹配。信息需求決定檢索工具、檢索方式的選擇。常識、大眾化、新聞、娛樂(lè )信息可用搜索引擎檢索;專(zhuān)利、標準與統計信息可從發(fā)布機構的網(wǎng)站檢索;學(xué)術(shù)科研信息可用數據庫檢索。復雜、精確的需求可采用高級檢索方式;模糊、簡(jiǎn)單的需求可采用簡(jiǎn)單檢索方式。檢索工具的功能設計(檢索選項或檢索框)正是用來(lái)滿(mǎn)足各種需求的,靈活運用各種檢索功能能夠有效提高檢索效率。從過(guò)程而言,信息檢索是需求的明晰與調整,只有在檢索的過(guò)程中,才能體會(huì )與領(lǐng)悟到檢索的意義和樂(lè )趣;只有把學(xué)習、工作、生活與科研遇到的各種問(wèn)題通過(guò)信息檢索的途徑解決,才能不斷提高信息意識與檢索技能,因此學(xué)好信息檢索必須經(jīng)過(guò)大量的實(shí)踐訓練。
本書(shū)特色
?。?)將信息需求與信息檢索結合起來(lái),將十多位作者關(guān)于信息檢索與利用的多年經(jīng)驗及技巧貫穿其中。
?。?)補充了新的內容:從國家、企業(yè)、個(gè)人層面介紹信息安全,從思維角度介紹網(wǎng)絡(luò )資源檢索技巧,從學(xué)習角度介紹數據獲取,從使用角度介紹創(chuàng )新創(chuàng )業(yè)的信息資源。
?。?)增加了學(xué)生參與的內容,包括每章提供1~3個(gè)研討與訓練,針對16學(xué)時(shí)和32學(xué)時(shí)課程的不同上機練習題等。
?。?)通過(guò)二維碼鏈接視頻等數字資源,便于深化學(xué)習。
目 錄
購書(shū)鏈接
京東
當當網(wǎng)
相關(guān)課程授課教師
可通過(guò)微信公眾號“科學(xué)EDU”
在線(xiàn)申請教學(xué)樣書(shū)
更多教學(xué)服務(wù)
收藏|信息檢索技巧年終大盤(pán)點(diǎn)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2022-06-20 16:48
據統計,科研人員開(kāi)展項目時(shí)有51%的時(shí)間都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員的一項重要且亟待解決的問(wèn)題。
然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里尋找才能搜出。檢索不到、檢索不準、檢索不全,都是目前科技信息檢索中面臨的嚴峻問(wèn)題。
如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用技巧和方法。
數據庫的選擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,在檢索時(shí),根據所需信息的內容可以判斷出從哪些數據庫中獲得能減少查詢(xún)時(shí)間的合適數據,以此來(lái)提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫的話(huà),可選擇中國知網(wǎng)。
檢索字段的選取與確認
在選取檢索字段時(shí),我們應遵循“選全、選準”的原則,盡量避免遺漏主題詞,應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯,盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞,其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
檢索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
檢索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求的后果。所以,為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑和優(yōu)化檢索策略,從而提高檢索字段的檢索效率。
如果想要使檢索達到較高的專(zhuān)業(yè)度,就需要對檢索字段、檢索范圍及檢索策略等方面進(jìn)行不斷的修正、校準、優(yōu)化。
特殊檢索符號的使用
不同的算符會(huì )組成不同的檢索式,因此,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1. 雙引號
雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)進(jìn)行直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄;如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況呢?雙引號表示全字符匹配,就是一個(gè)字都不能差;可如果不加雙引號,“天津”這個(gè)詞能搜出10萬(wàn)條,“總后”這個(gè)詞能搜出10萬(wàn)條,“軍事”這個(gè)詞又會(huì )搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,濾掉很多冗余信息。
這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2. 減號
“-”的作用是去除標題中不相關(guān)的結果,找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3. 邏輯算符AND
用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄。
可見(jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4. 位置算符
★ NEAR,表示兩個(gè)檢索詞必須緊密相連,詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
★WITH,表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class或high-class。
5. 布爾邏輯算符
運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
★ OR,將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology的檢索結果中必然包含education或technology中的一個(gè)。
★ NOT,排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6. 截詞符
★“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。
★“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索雖減少了輸入的字符數目,但可以有效預防漏檢,提高查全率。
其他重要檢索事項
1. 注意英文檢索詞的選擇
在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但在實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞有不準確或不全面的情況,除此之外,還會(huì )出現中文直譯成英文的情況,這些都有可能導致搜集到的資料出現錯誤或不全。
例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2. 搜索引擎的靈活應用
搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。
大多數搜索引擎都支持元詞(metawords)檢索功能,把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。
例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能,可以很好地限制搜索范圍、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用,它直接影響檢索策略,影響檢索效率和檢索效果。
在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。 查看全部
收藏|信息檢索技巧年終大盤(pán)點(diǎn)
據統計,科研人員開(kāi)展項目時(shí)有51%的時(shí)間都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員的一項重要且亟待解決的問(wèn)題。
然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里尋找才能搜出。檢索不到、檢索不準、檢索不全,都是目前科技信息檢索中面臨的嚴峻問(wèn)題。
如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用技巧和方法。
數據庫的選擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,在檢索時(shí),根據所需信息的內容可以判斷出從哪些數據庫中獲得能減少查詢(xún)時(shí)間的合適數據,以此來(lái)提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫的話(huà),可選擇中國知網(wǎng)。
檢索字段的選取與確認
在選取檢索字段時(shí),我們應遵循“選全、選準”的原則,盡量避免遺漏主題詞,應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯,盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞,其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
檢索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
檢索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求的后果。所以,為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑和優(yōu)化檢索策略,從而提高檢索字段的檢索效率。
如果想要使檢索達到較高的專(zhuān)業(yè)度,就需要對檢索字段、檢索范圍及檢索策略等方面進(jìn)行不斷的修正、校準、優(yōu)化。
特殊檢索符號的使用
不同的算符會(huì )組成不同的檢索式,因此,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1. 雙引號
雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)進(jìn)行直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄;如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況呢?雙引號表示全字符匹配,就是一個(gè)字都不能差;可如果不加雙引號,“天津”這個(gè)詞能搜出10萬(wàn)條,“總后”這個(gè)詞能搜出10萬(wàn)條,“軍事”這個(gè)詞又會(huì )搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,濾掉很多冗余信息。
這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2. 減號
“-”的作用是去除標題中不相關(guān)的結果,找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3. 邏輯算符AND
用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄。
可見(jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4. 位置算符
★ NEAR,表示兩個(gè)檢索詞必須緊密相連,詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
★WITH,表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class或high-class。
5. 布爾邏輯算符
運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
★ OR,將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology的檢索結果中必然包含education或technology中的一個(gè)。
★ NOT,排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6. 截詞符
★“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。
★“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索雖減少了輸入的字符數目,但可以有效預防漏檢,提高查全率。
其他重要檢索事項
1. 注意英文檢索詞的選擇
在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但在實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞有不準確或不全面的情況,除此之外,還會(huì )出現中文直譯成英文的情況,這些都有可能導致搜集到的資料出現錯誤或不全。
例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2. 搜索引擎的靈活應用
搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。
大多數搜索引擎都支持元詞(metawords)檢索功能,把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。
例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能,可以很好地限制搜索范圍、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用,它直接影響檢索策略,影響檢索效率和檢索效果。
在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
圖解|通用搜索引擎背后的技術(shù)點(diǎn)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-06-19 03:01
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。 查看全部
圖解|通用搜索引擎背后的技術(shù)點(diǎn)
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
圖解通用搜索引擎背后的技術(shù)點(diǎn)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-06-19 03:00
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
點(diǎn)個(gè)在看,贊支持我吧
查看全部
圖解通用搜索引擎背后的技術(shù)點(diǎn)
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
點(diǎn)個(gè)在看,贊支持我吧
畫(huà)了30張圖:死磕搜索引擎背后的故事
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2022-06-18 07:08
關(guān)注“腳本之家”,與百萬(wàn)開(kāi)發(fā)者在一起
來(lái)源 |后端技術(shù)指南針
1. 寫(xiě)在前面
今天準備和小伙伴們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1.網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2.單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3.比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4.為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。 查看全部
畫(huà)了30張圖:死磕搜索引擎背后的故事
關(guān)注“腳本之家”,與百萬(wàn)開(kāi)發(fā)者在一起
來(lái)源 |后端技術(shù)指南針
1. 寫(xiě)在前面
今天準備和小伙伴們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1.網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2.單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3.比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4.為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
這些科技信息檢索技巧,學(xué)到了嗎?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2022-06-10 11:04
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧” 查看全部
這些科技信息檢索技巧,學(xué)到了嗎?
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧”
整理網(wǎng)站推廣二十九種經(jīng)典方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 122 次瀏覽 ? 2022-06-10 10:58
如何增加網(wǎng)站訪(fǎng)問(wèn)量?以下是你可以考慮采用 29 個(gè)方法。其中,你或許已經(jīng)采用了一些,有的方法你可能忘了采用,還有一些是你從來(lái)沒(méi)有聽(tīng)說(shuō)過(guò)的??傊?,在這里你可以了結到當前各種有效的網(wǎng)站推廣方法。首先你要了解,網(wǎng)站推廣是一個(gè)長(cháng)期而且系統的過(guò)程,需要制定明確的目標和計劃,并做好相應的準備。
一、添加網(wǎng)頁(yè)標題
為每頁(yè)內容寫(xiě) 5 到 8 個(gè)字的描述性標題。標題要簡(jiǎn)練“的”“和”這些不重要的詞匯。要說(shuō)明該頁(yè)面,該網(wǎng)站最重要的內容是什么。網(wǎng)頁(yè)標題將出現在搜索結果頁(yè)面的鏈接上,因此可以寫(xiě)得稍帶煽動(dòng)性,以吸引搜索者點(diǎn)擊該鏈接。同時(shí)在首頁(yè)內容中寫(xiě)上你的公司名和你最重要的關(guān)鍵詞,而不能只是寫(xiě)公司名。網(wǎng)站的每一個(gè)頁(yè)面都應該有針對該頁(yè)面的標題。
二、添加描述性 META 標簽
除了網(wǎng)頁(yè)標題,不少搜索引擎會(huì )搜索到 META 標簽。這是一句說(shuō)明性文字。描述網(wǎng)頁(yè)正文的內容,句中也要包含本頁(yè)使用到的關(guān)鍵詞,詞組等。目前,含關(guān)鍵詞的 META 標簽已經(jīng)對排名幫助不大,但有時(shí) META 標簽會(huì )用于付費登陸技術(shù)中。而且誰(shuí)又知道什么時(shí)候搜索引擎又會(huì )再次重視它呢?
三、在網(wǎng)頁(yè)粗體文字,一般為文章標題中也填上你的關(guān)鍵詞
搜索引擎很重視粗體文字,以為這是本頁(yè)很重要的內容。因此,確保在一二個(gè)粗體文字標簽中寫(xiě)上你的關(guān)鍵詞。要盡量避免將重要的標題都制作成圖片的形式,更不要將整個(gè)首頁(yè)都做成一個(gè)圖片。
四、確保在你的正文第一段就出現關(guān)鍵詞
搜索引擎希望在第一段文字中就找到你的關(guān)鍵詞,但不要充斥過(guò)多關(guān)鍵詞。google 大概將全文每 100 個(gè)字出現 1.5 到 2 個(gè)關(guān)鍵詞視為最佳的關(guān)鍵詞密度,可獲得好排名。其他可考慮放置關(guān)鍵詞的地方可以在代碼的 ALT 或者 COMMEET 標簽里面。如果無(wú)法保證正文第一段出現關(guān)鍵詞,可以考慮一些不救措施,比如給網(wǎng)頁(yè)加一個(gè)批注等等。
五、導航設計要易于搜索引擎搜索
有些人在網(wǎng)頁(yè)制作中使用框架,但是這對于搜索引擎是一個(gè)嚴重的問(wèn)題。即使搜索引擎找到你的內容頁(yè)面,也可能錯過(guò)其中關(guān)鍵性的導航欄目,從而不能進(jìn)入到其他頁(yè)面。用 JAVA和 FLASH 做的導航按鈕看起來(lái)是很漂亮美觀(guān),但是搜索引擎找不到它們。補救的辦法是在頁(yè)面底部用常規 HTML 鏈接再作一個(gè)導航條,確??梢酝ㄟ^(guò)這個(gè)導航條進(jìn)入網(wǎng)站的每一頁(yè)。你還可以做一個(gè)網(wǎng)站地圖,也可以鏈接到每一頁(yè)面。此外,有些內容管理系統和電子商務(wù)目錄運用動(dòng)態(tài)的網(wǎng)頁(yè),這些頁(yè)面的網(wǎng)址后面一般都有一個(gè)問(wèn)號帶上數字,工作過(guò)度的搜索引擎往往在問(wèn)號前停下,不在繼續搜索。對于這種情況??梢酝ㄟ^(guò)更改 URL,付費登陸等手段加以解決。動(dòng)態(tài)站點(diǎn)可以通過(guò)生成靜態(tài)頁(yè)面的技術(shù)方便搜索引擎的抓取。網(wǎng)站地圖要盡量可能鏈接到所有的主要頁(yè)面,并單獨把站點(diǎn)地圖頁(yè)面提交給搜索引擎。多使用 HTML 靜態(tài)網(wǎng)頁(yè),雖然增加了工作量,但可以增加搜索引擎的友好度,從而為獲得好的排名打下基礎。
六、針對某些特別重要的關(guān)鍵詞,專(zhuān)門(mén)做幾個(gè)頁(yè)面
搜索引擎優(yōu)化專(zhuān)家不推薦使用任何針對搜索引擎的欺騙性過(guò)渡頁(yè)面,因為這些幾乎是復制出來(lái)的網(wǎng)頁(yè)可能搜索引擎的懲罰。但可以做幾個(gè)頁(yè)面,每頁(yè)集中包含不同的關(guān)鍵詞或詞組 。例如,無(wú)須在某一頁(yè)上介紹你所有的服務(wù)內容,而是為每種服務(wù)分別作一個(gè)頁(yè)面。這樣,每一頁(yè)都有相對應額關(guān)鍵詞,這些頁(yè)面內容因為包含針對性的關(guān)鍵詞而不是籠統的內容,從而可以提高排名。
七、向搜索引擎提交網(wǎng)頁(yè)
在搜索引擎是找到【ADD YOUR URL】網(wǎng)站登陸的鏈接。搜索引擎將自動(dòng)搜索你提交的網(wǎng)頁(yè)。美國最著(zhù)名的搜索引擎是:google、inktomi、alta、vista、 tehoma。這些搜索引擎向其它主要搜索引擎和門(mén)戶(hù)網(wǎng)站提供搜索內容。在歐洲和其他地區你可以發(fā)布到區域性的搜索引擎。至于花錢(qián)請人幫你提交成千上萬(wàn)的搜索引擎的做法是在白花錢(qián)。也不要在那些 FFA(free for all pages)網(wǎng)站,即所謂將你的網(wǎng)站免費自動(dòng)提交到數百搜索引擎的站點(diǎn)。這類(lèi)提交不僅效果不好,還會(huì )給你帶來(lái)大量的垃圾郵件,并可能導致搜索引擎對你的網(wǎng)頁(yè)進(jìn)行懲罰。也不要使用網(wǎng)站登陸軟件,所謂可以一次性將你的網(wǎng)站提交給數以千計的搜索引擎,其實(shí)不僅是不可能的,也是沒(méi)有實(shí)際價(jià)值的。最重要的是做好網(wǎng)站的優(yōu)化設計,對于主要搜索引擎,采用逐個(gè)手工提交的方式來(lái)進(jìn)行 。對于付費搜索引擎,更不可能依靠軟件來(lái)提交。事實(shí)上,有效的搜索引擎營(yíng)銷(xiāo)策略根本不需要將網(wǎng)站登陸到數以千計的搜索引擎,因為訪(fǎng)問(wèn)量最大的幾個(gè)搜索引擎幾乎集中了 98%以上的訪(fǎng)問(wèn)量,剩下的搜索引擎沒(méi)有多少實(shí)際意義。另外要注意,提交網(wǎng)頁(yè)不應該是一次性的 ,隨著(zhù)內容的更新,應該定期重新提交網(wǎng)頁(yè)。由于網(wǎng)絡(luò )頁(yè)面越來(lái)越多,很多搜索機器人的回訪(fǎng)時(shí)間很長(cháng),定期提交可以讓搜索引擎前來(lái)抓取最新的更新內容。
八、調整主要內容頁(yè)面以提高排名
將你認為最重要的頁(yè)面,或許是首頁(yè)作一些調整,以提高他們的排名。有一些軟件可以讓你檢查當前的排名,比較跟你的關(guān)鍵詞相同的競爭者的網(wǎng)頁(yè)排名,還可以獲得搜索引擎對你的網(wǎng)頁(yè)的首選統計數據,從而對自己的頁(yè)面進(jìn)行調整。你可以使用 webpositiongold 自己做這個(gè)工作,但由于很花時(shí)間,也可以請專(zhuān)業(yè)的公司幫你做。在其他網(wǎng)站做鏈接可以帶來(lái)更多訪(fǎng)問(wèn)量。自從 google 等主要搜索引擎將網(wǎng)站的鏈接廣泛度作為排名參考的重要因素以后,越多網(wǎng)站鏈接你,你的網(wǎng)站排名越高。同時(shí),鏈接的質(zhì)量也是搜索引擎考慮的重要因素。鏈接在訪(fǎng)問(wèn)量高的網(wǎng)站比鏈接在訪(fǎng)問(wèn)量低的網(wǎng)站更有優(yōu)勢。
九、將網(wǎng)站提交到主要的檢索目錄
確保你的網(wǎng)站登陸到免費的 open directory(),這是由人工進(jìn)行登陸審查的網(wǎng)站。該分級目錄為所有主要搜索引擎提供目錄內容提供搜索。google 很看重你的網(wǎng)站是否在這類(lèi)重要的網(wǎng)站有鏈接。yahoo 是另一個(gè)重要的檢索目錄,需要在上面登陸。提示:描述網(wǎng)站的字數最好比規定的最高字數少,不要剛好達到字數限制,以免太長(cháng)的文字描述使得網(wǎng)站審核人員刪除一些句段。目前商業(yè)網(wǎng)站登陸 yahoo 每年要交¥299,最好讓他們在 7個(gè)工作日內就將你的網(wǎng)站登陸上去。其他可以考慮登陸的檢索目錄有 和。國內有很多網(wǎng)站導航站點(diǎn)。例http:// http:// 等等,也能帶來(lái)非常大的流量。即使網(wǎng)絡(luò )營(yíng)銷(xiāo)預算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登記的。
十、做專(zhuān)業(yè)
將網(wǎng)站登陸到行業(yè)站點(diǎn)和專(zhuān)業(yè)目錄中有一些檢索目錄定位于某個(gè)行業(yè),如教育或金融業(yè)。如果你屬于某個(gè)貿易協(xié)會(huì ),該協(xié)會(huì )集中了諸多會(huì )員站點(diǎn),你可向該協(xié)會(huì )網(wǎng)站申請加入你的站點(diǎn),哪怕付費也是應該的,因為這會(huì )為你帶來(lái)許多目標訪(fǎng)問(wèn)者。除了可以登陸到很多黃頁(yè)類(lèi)網(wǎng)站,到搜索引擎按照你的行業(yè)查找,一定也能找到很多相關(guān)的行業(yè)目錄站點(diǎn),應該盡量登陸這些站點(diǎn)。
十一、請求互換鏈接
尋找一些與你的網(wǎng)站內容互補的站點(diǎn)向對方要求互換鏈接。最理想的鏈接對象是那些與你的網(wǎng)站流量相當的網(wǎng)站。流量太大的網(wǎng)站管理員要應付太多要求互換鏈接的請求,容易將你忽略。小的一些網(wǎng)站頁(yè)可以考慮?;Q鏈接頁(yè)面要放在網(wǎng)站比較偏僻的地方,以免將你的網(wǎng)站訪(fǎng)問(wèn)者很快引向他人的站點(diǎn)。找到可以互換鏈接的網(wǎng)站之后,發(fā)一封個(gè)性化的電郵給對方網(wǎng)站管理,如果對方?jīng)]有回復,再打電話(huà)試一試。一定要關(guān)注對方網(wǎng)站的質(zhì)量,不要片面追求鏈接數量,更不要發(fā)垃圾郵件。
十二、發(fā)表免費文章,附帶站點(diǎn)簽名
免費為其他網(wǎng)站的新聞郵件寫(xiě)一些專(zhuān)業(yè)性文章,文章里用簡(jiǎn)短的文字附帶描述你提供的東西,并請求對方鏈接你的網(wǎng)站。這是一種有效的病毒營(yíng)銷(xiāo)方法,你的文章將作為成千上百的用戶(hù)訂閱信息發(fā)出去,讓你的網(wǎng)站一次性獲得幾百個(gè)鏈接。沒(méi)有自己的原創(chuàng )文章,轉載別人的文章時(shí)一定也要加上自己的鏈接。網(wǎng)下的傳統推廣方法依然奏效。多種手段并用的方法尤其有效。
十三、將你的網(wǎng)址印在信紙、名片、宣傳冊、印刷品上
這種簡(jiǎn)單的方法有時(shí)候卻被忽略了。確保網(wǎng)址拼寫(xiě)正確。建議把 http://部 分省 略,只書(shū)寫(xiě) http://www.****.com/部分。一個(gè)易于記憶的域名有利于網(wǎng)站的推廣,在選擇域名時(shí)一定要仔細考慮。
十四、使用傳統媒體廣告
傳統媒體廣告不應該廢止。無(wú)論是報紙還是雜志廣告,務(wù)必確保在其中展示你的網(wǎng)址。要將查看網(wǎng)站作為廣告的輔助內容,提醒用戶(hù)瀏覽網(wǎng)站將取得更多相關(guān)信息。別忽視在一些定位相對比較狹窄的雜志或者貿易期刊刊登廣告,有時(shí)候這些廣告定位會(huì )更加準確、有效。而且比網(wǎng)絡(luò )廣告更便宜。還有其它傳統方式可增加網(wǎng)站訪(fǎng)問(wèn)量,如直郵、分類(lèi)廣告、明信片等等。電視廣告恐怕更適合于那些銷(xiāo)售大眾化商品的網(wǎng)站。讓網(wǎng)址出現在廣告中顯眼的位置 ,相信比電話(huà)號碼更好記憶
十五、提供免費服務(wù)
人們都喜歡免費的東西。通過(guò)免費信息內容吸引人們訪(fǎng)問(wèn)你的網(wǎng)站,比單純叫人來(lái)訪(fǎng)問(wèn)了解你的業(yè)務(wù)更有效。建立免費資源需要花費時(shí)間和精力,但是對增加訪(fǎng)問(wèn)量非常有效。你提供的免費內容要與你銷(xiāo)售的東西非常接近,這樣你吸引來(lái)得訪(fǎng)問(wèn)者才有可能時(shí)目標潛在客戶(hù),提供免費服務(wù)的同時(shí),網(wǎng)站要提供多種鏈接方式將獲取免費信息的用戶(hù)注意力引導到你銷(xiāo)售的產(chǎn)品部分。免費資源比如:免費郵箱、免費網(wǎng)站登陸、免費發(fā)布信息、能提供具有特色的免費服務(wù)那就更好了。
十六、發(fā)布新聞
尋找具有新聞價(jià)值的事件,比如宣傳你提供免費服務(wù),并將新聞發(fā)布到你所在行業(yè)的印刷期刊和網(wǎng)站期刊上。你可以使用一些網(wǎng)絡(luò )新聞發(fā)布服務(wù)。 新聞推廣總是有效的,這就是為什么傳統媒體會(huì )有那么多企業(yè)的廣告看起來(lái)很像新聞的原因。電子郵件是增加訪(fǎng)問(wèn)量的重要方法,但前提是不能大量發(fā)送未經(jīng)許可的垃圾郵件。
十七、在你發(fā)出的郵件中創(chuàng )建一個(gè)簽名,讓潛在客戶(hù)與你聯(lián)系
大部分的郵件系統都有創(chuàng )建簽名的功能。簽名會(huì )自動(dòng)出現在你發(fā)出去的每封郵件末尾。簽名要限制在 6-8 行之內。包括:公司名稱(chēng)、地址、電話(huà)、網(wǎng)址、電子郵件和一句你的企業(yè)的描述。簽名不要為了漂亮設計為圖片格式,要便于客戶(hù)復制拷貝。
十八、建立郵件列表,定期向用戶(hù)發(fā)送新聞郵件或其他信息
這是與客戶(hù)保持聯(lián)系、建立信任、發(fā)展品牌及建立長(cháng)期關(guān)系的最好方法之一。你可以請網(wǎng)站訪(fǎng)問(wèn)者填寫(xiě)他們的電子郵件地址,從而收取你的新聞郵件。發(fā)送郵件需要采用群發(fā)服務(wù)器,這些在網(wǎng)絡(luò )上有很多。
十九、向郵件列表用戶(hù)發(fā)布產(chǎn)品信息,如優(yōu)惠券,新產(chǎn)品及其其他促銷(xiāo)信息
如果將郵件主題和正文進(jìn)行個(gè)性化處理將獲得更好的效果。郵件主題設計的 5 個(gè)基本原則是:1、體現出郵件內容的精華。2、體現出發(fā)件人信息中無(wú)法包含的內容。3、體現出品牌或者產(chǎn)品信息。4、郵件主題含有豐富的關(guān)鍵詞。5、郵件主題不宜過(guò)于簡(jiǎn)單或者過(guò)于復雜 。
二十、租用目標客戶(hù)郵件列表
這些郵件列表客戶(hù)在郵件列表商的網(wǎng)站注冊的時(shí)候同意接受某些類(lèi)別商業(yè)郵件信息,因此向這些用戶(hù)發(fā)送你的產(chǎn)品信息是合法的,不屬于垃圾郵件。自己用郵址搜索軟件收集電子郵件地址,或者購買(mǎi)電子郵件地址都屬于垃圾郵件,不僅不會(huì )帶來(lái)好處,甚至會(huì )收到懲罰。
二十一、在郵件列表和新聞組中進(jìn)行促銷(xiāo)
許多在某一專(zhuān)業(yè)領(lǐng)域中有著(zhù)共同興趣的人在網(wǎng)絡(luò )上進(jìn)行討論交流,形成成千上萬(wàn)不同領(lǐng)域的新聞組。找到自己領(lǐng)域內的新聞組,不是要在其中公開(kāi)宣傳你的產(chǎn)品或者服務(wù),而是在交流的簽名中留下你的電子郵件地址和網(wǎng)站。當人們逐漸了解并信任你的時(shí)候,他們會(huì )訪(fǎng)問(wèn)你的網(wǎng)站。新聞組在國內應用不多,因此算不上常用的網(wǎng)站推廣方法。論壇和聊天室曾經(jīng)被用來(lái)宣傳產(chǎn)品,但現在很多網(wǎng)站并不歡迎在這些網(wǎng)絡(luò )社區發(fā)布廣告信息,除非有專(zhuān)門(mén)的廣告發(fā)布版塊,否則盡量不要采用這種方式。
二十二、運用競賽
你可以在網(wǎng)站上設計一個(gè)競賽,獎品要能夠吸引那些你最希望獲得的那類(lèi)客戶(hù)。比如將獎品設計為你的產(chǎn)品或一定的購買(mǎi)折扣等等。運用競賽可以有效的吸引更多訪(fǎng)問(wèn)量。如果你的知名度不高,如何讓客戶(hù)知道你開(kāi)展競賽也是一個(gè)問(wèn)題,因此對有些網(wǎng)站這種方式并不適用。 查看全部
整理網(wǎng)站推廣二十九種經(jīng)典方法
如何增加網(wǎng)站訪(fǎng)問(wèn)量?以下是你可以考慮采用 29 個(gè)方法。其中,你或許已經(jīng)采用了一些,有的方法你可能忘了采用,還有一些是你從來(lái)沒(méi)有聽(tīng)說(shuō)過(guò)的??傊?,在這里你可以了結到當前各種有效的網(wǎng)站推廣方法。首先你要了解,網(wǎng)站推廣是一個(gè)長(cháng)期而且系統的過(guò)程,需要制定明確的目標和計劃,并做好相應的準備。
一、添加網(wǎng)頁(yè)標題
為每頁(yè)內容寫(xiě) 5 到 8 個(gè)字的描述性標題。標題要簡(jiǎn)練“的”“和”這些不重要的詞匯。要說(shuō)明該頁(yè)面,該網(wǎng)站最重要的內容是什么。網(wǎng)頁(yè)標題將出現在搜索結果頁(yè)面的鏈接上,因此可以寫(xiě)得稍帶煽動(dòng)性,以吸引搜索者點(diǎn)擊該鏈接。同時(shí)在首頁(yè)內容中寫(xiě)上你的公司名和你最重要的關(guān)鍵詞,而不能只是寫(xiě)公司名。網(wǎng)站的每一個(gè)頁(yè)面都應該有針對該頁(yè)面的標題。
二、添加描述性 META 標簽
除了網(wǎng)頁(yè)標題,不少搜索引擎會(huì )搜索到 META 標簽。這是一句說(shuō)明性文字。描述網(wǎng)頁(yè)正文的內容,句中也要包含本頁(yè)使用到的關(guān)鍵詞,詞組等。目前,含關(guān)鍵詞的 META 標簽已經(jīng)對排名幫助不大,但有時(shí) META 標簽會(huì )用于付費登陸技術(shù)中。而且誰(shuí)又知道什么時(shí)候搜索引擎又會(huì )再次重視它呢?
三、在網(wǎng)頁(yè)粗體文字,一般為文章標題中也填上你的關(guān)鍵詞
搜索引擎很重視粗體文字,以為這是本頁(yè)很重要的內容。因此,確保在一二個(gè)粗體文字標簽中寫(xiě)上你的關(guān)鍵詞。要盡量避免將重要的標題都制作成圖片的形式,更不要將整個(gè)首頁(yè)都做成一個(gè)圖片。
四、確保在你的正文第一段就出現關(guān)鍵詞
搜索引擎希望在第一段文字中就找到你的關(guān)鍵詞,但不要充斥過(guò)多關(guān)鍵詞。google 大概將全文每 100 個(gè)字出現 1.5 到 2 個(gè)關(guān)鍵詞視為最佳的關(guān)鍵詞密度,可獲得好排名。其他可考慮放置關(guān)鍵詞的地方可以在代碼的 ALT 或者 COMMEET 標簽里面。如果無(wú)法保證正文第一段出現關(guān)鍵詞,可以考慮一些不救措施,比如給網(wǎng)頁(yè)加一個(gè)批注等等。
五、導航設計要易于搜索引擎搜索
有些人在網(wǎng)頁(yè)制作中使用框架,但是這對于搜索引擎是一個(gè)嚴重的問(wèn)題。即使搜索引擎找到你的內容頁(yè)面,也可能錯過(guò)其中關(guān)鍵性的導航欄目,從而不能進(jìn)入到其他頁(yè)面。用 JAVA和 FLASH 做的導航按鈕看起來(lái)是很漂亮美觀(guān),但是搜索引擎找不到它們。補救的辦法是在頁(yè)面底部用常規 HTML 鏈接再作一個(gè)導航條,確??梢酝ㄟ^(guò)這個(gè)導航條進(jìn)入網(wǎng)站的每一頁(yè)。你還可以做一個(gè)網(wǎng)站地圖,也可以鏈接到每一頁(yè)面。此外,有些內容管理系統和電子商務(wù)目錄運用動(dòng)態(tài)的網(wǎng)頁(yè),這些頁(yè)面的網(wǎng)址后面一般都有一個(gè)問(wèn)號帶上數字,工作過(guò)度的搜索引擎往往在問(wèn)號前停下,不在繼續搜索。對于這種情況??梢酝ㄟ^(guò)更改 URL,付費登陸等手段加以解決。動(dòng)態(tài)站點(diǎn)可以通過(guò)生成靜態(tài)頁(yè)面的技術(shù)方便搜索引擎的抓取。網(wǎng)站地圖要盡量可能鏈接到所有的主要頁(yè)面,并單獨把站點(diǎn)地圖頁(yè)面提交給搜索引擎。多使用 HTML 靜態(tài)網(wǎng)頁(yè),雖然增加了工作量,但可以增加搜索引擎的友好度,從而為獲得好的排名打下基礎。
六、針對某些特別重要的關(guān)鍵詞,專(zhuān)門(mén)做幾個(gè)頁(yè)面
搜索引擎優(yōu)化專(zhuān)家不推薦使用任何針對搜索引擎的欺騙性過(guò)渡頁(yè)面,因為這些幾乎是復制出來(lái)的網(wǎng)頁(yè)可能搜索引擎的懲罰。但可以做幾個(gè)頁(yè)面,每頁(yè)集中包含不同的關(guān)鍵詞或詞組 。例如,無(wú)須在某一頁(yè)上介紹你所有的服務(wù)內容,而是為每種服務(wù)分別作一個(gè)頁(yè)面。這樣,每一頁(yè)都有相對應額關(guān)鍵詞,這些頁(yè)面內容因為包含針對性的關(guān)鍵詞而不是籠統的內容,從而可以提高排名。
七、向搜索引擎提交網(wǎng)頁(yè)
在搜索引擎是找到【ADD YOUR URL】網(wǎng)站登陸的鏈接。搜索引擎將自動(dòng)搜索你提交的網(wǎng)頁(yè)。美國最著(zhù)名的搜索引擎是:google、inktomi、alta、vista、 tehoma。這些搜索引擎向其它主要搜索引擎和門(mén)戶(hù)網(wǎng)站提供搜索內容。在歐洲和其他地區你可以發(fā)布到區域性的搜索引擎。至于花錢(qián)請人幫你提交成千上萬(wàn)的搜索引擎的做法是在白花錢(qián)。也不要在那些 FFA(free for all pages)網(wǎng)站,即所謂將你的網(wǎng)站免費自動(dòng)提交到數百搜索引擎的站點(diǎn)。這類(lèi)提交不僅效果不好,還會(huì )給你帶來(lái)大量的垃圾郵件,并可能導致搜索引擎對你的網(wǎng)頁(yè)進(jìn)行懲罰。也不要使用網(wǎng)站登陸軟件,所謂可以一次性將你的網(wǎng)站提交給數以千計的搜索引擎,其實(shí)不僅是不可能的,也是沒(méi)有實(shí)際價(jià)值的。最重要的是做好網(wǎng)站的優(yōu)化設計,對于主要搜索引擎,采用逐個(gè)手工提交的方式來(lái)進(jìn)行 。對于付費搜索引擎,更不可能依靠軟件來(lái)提交。事實(shí)上,有效的搜索引擎營(yíng)銷(xiāo)策略根本不需要將網(wǎng)站登陸到數以千計的搜索引擎,因為訪(fǎng)問(wèn)量最大的幾個(gè)搜索引擎幾乎集中了 98%以上的訪(fǎng)問(wèn)量,剩下的搜索引擎沒(méi)有多少實(shí)際意義。另外要注意,提交網(wǎng)頁(yè)不應該是一次性的 ,隨著(zhù)內容的更新,應該定期重新提交網(wǎng)頁(yè)。由于網(wǎng)絡(luò )頁(yè)面越來(lái)越多,很多搜索機器人的回訪(fǎng)時(shí)間很長(cháng),定期提交可以讓搜索引擎前來(lái)抓取最新的更新內容。
八、調整主要內容頁(yè)面以提高排名
將你認為最重要的頁(yè)面,或許是首頁(yè)作一些調整,以提高他們的排名。有一些軟件可以讓你檢查當前的排名,比較跟你的關(guān)鍵詞相同的競爭者的網(wǎng)頁(yè)排名,還可以獲得搜索引擎對你的網(wǎng)頁(yè)的首選統計數據,從而對自己的頁(yè)面進(jìn)行調整。你可以使用 webpositiongold 自己做這個(gè)工作,但由于很花時(shí)間,也可以請專(zhuān)業(yè)的公司幫你做。在其他網(wǎng)站做鏈接可以帶來(lái)更多訪(fǎng)問(wèn)量。自從 google 等主要搜索引擎將網(wǎng)站的鏈接廣泛度作為排名參考的重要因素以后,越多網(wǎng)站鏈接你,你的網(wǎng)站排名越高。同時(shí),鏈接的質(zhì)量也是搜索引擎考慮的重要因素。鏈接在訪(fǎng)問(wèn)量高的網(wǎng)站比鏈接在訪(fǎng)問(wèn)量低的網(wǎng)站更有優(yōu)勢。
九、將網(wǎng)站提交到主要的檢索目錄
確保你的網(wǎng)站登陸到免費的 open directory(),這是由人工進(jìn)行登陸審查的網(wǎng)站。該分級目錄為所有主要搜索引擎提供目錄內容提供搜索。google 很看重你的網(wǎng)站是否在這類(lèi)重要的網(wǎng)站有鏈接。yahoo 是另一個(gè)重要的檢索目錄,需要在上面登陸。提示:描述網(wǎng)站的字數最好比規定的最高字數少,不要剛好達到字數限制,以免太長(cháng)的文字描述使得網(wǎng)站審核人員刪除一些句段。目前商業(yè)網(wǎng)站登陸 yahoo 每年要交¥299,最好讓他們在 7個(gè)工作日內就將你的網(wǎng)站登陸上去。其他可以考慮登陸的檢索目錄有 和。國內有很多網(wǎng)站導航站點(diǎn)。例http:// http:// 等等,也能帶來(lái)非常大的流量。即使網(wǎng)絡(luò )營(yíng)銷(xiāo)預算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登記的。
十、做專(zhuān)業(yè)
將網(wǎng)站登陸到行業(yè)站點(diǎn)和專(zhuān)業(yè)目錄中有一些檢索目錄定位于某個(gè)行業(yè),如教育或金融業(yè)。如果你屬于某個(gè)貿易協(xié)會(huì ),該協(xié)會(huì )集中了諸多會(huì )員站點(diǎn),你可向該協(xié)會(huì )網(wǎng)站申請加入你的站點(diǎn),哪怕付費也是應該的,因為這會(huì )為你帶來(lái)許多目標訪(fǎng)問(wèn)者。除了可以登陸到很多黃頁(yè)類(lèi)網(wǎng)站,到搜索引擎按照你的行業(yè)查找,一定也能找到很多相關(guān)的行業(yè)目錄站點(diǎn),應該盡量登陸這些站點(diǎn)。
十一、請求互換鏈接
尋找一些與你的網(wǎng)站內容互補的站點(diǎn)向對方要求互換鏈接。最理想的鏈接對象是那些與你的網(wǎng)站流量相當的網(wǎng)站。流量太大的網(wǎng)站管理員要應付太多要求互換鏈接的請求,容易將你忽略。小的一些網(wǎng)站頁(yè)可以考慮?;Q鏈接頁(yè)面要放在網(wǎng)站比較偏僻的地方,以免將你的網(wǎng)站訪(fǎng)問(wèn)者很快引向他人的站點(diǎn)。找到可以互換鏈接的網(wǎng)站之后,發(fā)一封個(gè)性化的電郵給對方網(wǎng)站管理,如果對方?jīng)]有回復,再打電話(huà)試一試。一定要關(guān)注對方網(wǎng)站的質(zhì)量,不要片面追求鏈接數量,更不要發(fā)垃圾郵件。
十二、發(fā)表免費文章,附帶站點(diǎn)簽名
免費為其他網(wǎng)站的新聞郵件寫(xiě)一些專(zhuān)業(yè)性文章,文章里用簡(jiǎn)短的文字附帶描述你提供的東西,并請求對方鏈接你的網(wǎng)站。這是一種有效的病毒營(yíng)銷(xiāo)方法,你的文章將作為成千上百的用戶(hù)訂閱信息發(fā)出去,讓你的網(wǎng)站一次性獲得幾百個(gè)鏈接。沒(méi)有自己的原創(chuàng )文章,轉載別人的文章時(shí)一定也要加上自己的鏈接。網(wǎng)下的傳統推廣方法依然奏效。多種手段并用的方法尤其有效。
十三、將你的網(wǎng)址印在信紙、名片、宣傳冊、印刷品上
這種簡(jiǎn)單的方法有時(shí)候卻被忽略了。確保網(wǎng)址拼寫(xiě)正確。建議把 http://部 分省 略,只書(shū)寫(xiě) http://www.****.com/部分。一個(gè)易于記憶的域名有利于網(wǎng)站的推廣,在選擇域名時(shí)一定要仔細考慮。
十四、使用傳統媒體廣告
傳統媒體廣告不應該廢止。無(wú)論是報紙還是雜志廣告,務(wù)必確保在其中展示你的網(wǎng)址。要將查看網(wǎng)站作為廣告的輔助內容,提醒用戶(hù)瀏覽網(wǎng)站將取得更多相關(guān)信息。別忽視在一些定位相對比較狹窄的雜志或者貿易期刊刊登廣告,有時(shí)候這些廣告定位會(huì )更加準確、有效。而且比網(wǎng)絡(luò )廣告更便宜。還有其它傳統方式可增加網(wǎng)站訪(fǎng)問(wèn)量,如直郵、分類(lèi)廣告、明信片等等。電視廣告恐怕更適合于那些銷(xiāo)售大眾化商品的網(wǎng)站。讓網(wǎng)址出現在廣告中顯眼的位置 ,相信比電話(huà)號碼更好記憶
十五、提供免費服務(wù)
人們都喜歡免費的東西。通過(guò)免費信息內容吸引人們訪(fǎng)問(wèn)你的網(wǎng)站,比單純叫人來(lái)訪(fǎng)問(wèn)了解你的業(yè)務(wù)更有效。建立免費資源需要花費時(shí)間和精力,但是對增加訪(fǎng)問(wèn)量非常有效。你提供的免費內容要與你銷(xiāo)售的東西非常接近,這樣你吸引來(lái)得訪(fǎng)問(wèn)者才有可能時(shí)目標潛在客戶(hù),提供免費服務(wù)的同時(shí),網(wǎng)站要提供多種鏈接方式將獲取免費信息的用戶(hù)注意力引導到你銷(xiāo)售的產(chǎn)品部分。免費資源比如:免費郵箱、免費網(wǎng)站登陸、免費發(fā)布信息、能提供具有特色的免費服務(wù)那就更好了。
十六、發(fā)布新聞
尋找具有新聞價(jià)值的事件,比如宣傳你提供免費服務(wù),并將新聞發(fā)布到你所在行業(yè)的印刷期刊和網(wǎng)站期刊上。你可以使用一些網(wǎng)絡(luò )新聞發(fā)布服務(wù)。 新聞推廣總是有效的,這就是為什么傳統媒體會(huì )有那么多企業(yè)的廣告看起來(lái)很像新聞的原因。電子郵件是增加訪(fǎng)問(wèn)量的重要方法,但前提是不能大量發(fā)送未經(jīng)許可的垃圾郵件。
十七、在你發(fā)出的郵件中創(chuàng )建一個(gè)簽名,讓潛在客戶(hù)與你聯(lián)系
大部分的郵件系統都有創(chuàng )建簽名的功能。簽名會(huì )自動(dòng)出現在你發(fā)出去的每封郵件末尾。簽名要限制在 6-8 行之內。包括:公司名稱(chēng)、地址、電話(huà)、網(wǎng)址、電子郵件和一句你的企業(yè)的描述。簽名不要為了漂亮設計為圖片格式,要便于客戶(hù)復制拷貝。
十八、建立郵件列表,定期向用戶(hù)發(fā)送新聞郵件或其他信息
這是與客戶(hù)保持聯(lián)系、建立信任、發(fā)展品牌及建立長(cháng)期關(guān)系的最好方法之一。你可以請網(wǎng)站訪(fǎng)問(wèn)者填寫(xiě)他們的電子郵件地址,從而收取你的新聞郵件。發(fā)送郵件需要采用群發(fā)服務(wù)器,這些在網(wǎng)絡(luò )上有很多。
十九、向郵件列表用戶(hù)發(fā)布產(chǎn)品信息,如優(yōu)惠券,新產(chǎn)品及其其他促銷(xiāo)信息
如果將郵件主題和正文進(jìn)行個(gè)性化處理將獲得更好的效果。郵件主題設計的 5 個(gè)基本原則是:1、體現出郵件內容的精華。2、體現出發(fā)件人信息中無(wú)法包含的內容。3、體現出品牌或者產(chǎn)品信息。4、郵件主題含有豐富的關(guān)鍵詞。5、郵件主題不宜過(guò)于簡(jiǎn)單或者過(guò)于復雜 。
二十、租用目標客戶(hù)郵件列表
這些郵件列表客戶(hù)在郵件列表商的網(wǎng)站注冊的時(shí)候同意接受某些類(lèi)別商業(yè)郵件信息,因此向這些用戶(hù)發(fā)送你的產(chǎn)品信息是合法的,不屬于垃圾郵件。自己用郵址搜索軟件收集電子郵件地址,或者購買(mǎi)電子郵件地址都屬于垃圾郵件,不僅不會(huì )帶來(lái)好處,甚至會(huì )收到懲罰。
二十一、在郵件列表和新聞組中進(jìn)行促銷(xiāo)
許多在某一專(zhuān)業(yè)領(lǐng)域中有著(zhù)共同興趣的人在網(wǎng)絡(luò )上進(jìn)行討論交流,形成成千上萬(wàn)不同領(lǐng)域的新聞組。找到自己領(lǐng)域內的新聞組,不是要在其中公開(kāi)宣傳你的產(chǎn)品或者服務(wù),而是在交流的簽名中留下你的電子郵件地址和網(wǎng)站。當人們逐漸了解并信任你的時(shí)候,他們會(huì )訪(fǎng)問(wèn)你的網(wǎng)站。新聞組在國內應用不多,因此算不上常用的網(wǎng)站推廣方法。論壇和聊天室曾經(jīng)被用來(lái)宣傳產(chǎn)品,但現在很多網(wǎng)站并不歡迎在這些網(wǎng)絡(luò )社區發(fā)布廣告信息,除非有專(zhuān)門(mén)的廣告發(fā)布版塊,否則盡量不要采用這種方式。
二十二、運用競賽
你可以在網(wǎng)站上設計一個(gè)競賽,獎品要能夠吸引那些你最希望獲得的那類(lèi)客戶(hù)。比如將獎品設計為你的產(chǎn)品或一定的購買(mǎi)折扣等等。運用競賽可以有效的吸引更多訪(fǎng)問(wèn)量。如果你的知名度不高,如何讓客戶(hù)知道你開(kāi)展競賽也是一個(gè)問(wèn)題,因此對有些網(wǎng)站這種方式并不適用。
搜索引擎營(yíng)銷(xiāo)核心思路
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2022-05-21 19:30
再不點(diǎn)藍字關(guān)注,機會(huì )就要飛走了哦 搜索引擎目前仍然是最主要的網(wǎng)站推廣手段之一,尤其基于自然搜索結果的搜索引擎推廣,到目前為止 搜索引擎營(yíng)銷(xiāo)四個(gè)目標層次仍然是免費的,因此受到眾多中小網(wǎng)站的重視,搜索引擎營(yíng)銷(xiāo)方法也成為網(wǎng)絡(luò )營(yíng)銷(xiāo)方法體系的主要組成部分。目前對于搜索引擎營(yíng)銷(xiāo)的研究,無(wú)論是對于搜索引擎優(yōu)化還是付費搜索引擎廣告,基本上都處于操作層面,如果要對這些具體的操作方法和技巧歸納為搜索引擎推廣的一般規律時(shí),有必要提出這樣的問(wèn)題:搜索引擎推廣的核心思想是什么? 新競爭力通過(guò)對搜索引擎營(yíng)銷(xiāo)的規律深入研究認為:搜索引擎推廣是基于網(wǎng)站內容的推廣——這就是搜索引擎營(yíng)銷(xiāo)的核心思想。這句話(huà)說(shuō)起來(lái)很簡(jiǎn)單,如果仔細分析會(huì )發(fā)現,這句話(huà)的確包含了搜索引擎推廣的一般規律。本文作者在“網(wǎng)站推廣策略之內容推廣思想漫談”一文中提出一個(gè)觀(guān)點(diǎn):“網(wǎng)站內容不僅是大型ICP網(wǎng)站的生命源泉,對于企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的效果同樣是至關(guān)重要的”。因為網(wǎng)站內容本身也是一種有效的網(wǎng)站推廣手段,只是這種推廣需要借助于搜索引擎這個(gè)信息檢索工具,因此網(wǎng)站內容推廣策略實(shí)際上也就是搜索引擎推廣策略的具體應用。搜索引擎營(yíng)銷(xiāo)的核心思想對網(wǎng)站推廣策略的指導意義“搜索引擎推廣是基于網(wǎng)站有效文字信息的推廣”,這一指導思想對制定網(wǎng)站推廣策略的指導意義表現在幾個(gè)方面:網(wǎng)站推廣需要有效的網(wǎng)站內容網(wǎng)站的有效內容,亦即對網(wǎng)站推廣有價(jià)值的內容。
增加網(wǎng)站內容在的作用首先表現在滿(mǎn)足用戶(hù)獲取信息方面,這是任何網(wǎng)站發(fā)布內容的基本目的,從直接瀏覽者的角度來(lái)看,網(wǎng)上的信息通常并不能完全滿(mǎn)足所有 使用搜索引擎營(yíng)銷(xiāo)的企業(yè)行業(yè)用戶(hù)的需要,每增加一個(gè)網(wǎng)頁(yè)的內容,也就意味著(zhù)為滿(mǎn)足用戶(hù)的信息需求需求增加了一點(diǎn)努力。因此網(wǎng)站內容策略的基本出發(fā)點(diǎn)是可以為用戶(hù)提供有效的信息和服務(wù),這樣,無(wú)論用戶(hù)通過(guò)哪種渠道來(lái)到網(wǎng)站,都可以獲得盡可能詳盡的信息。在滿(mǎn)足用戶(hù)這一基本需求的前提下,網(wǎng)站內容還應考慮到搜索引擎的收錄和檢索規律,這樣可以為用戶(hù)通過(guò)搜索引擎獲取網(wǎng)站信息帶來(lái)更多的機會(huì )。搜索引擎收錄的信息量是以網(wǎng)頁(yè)數為單位的,被收錄的每一個(gè)網(wǎng)頁(yè)都有被用戶(hù)發(fā)現的機會(huì ),也只有被搜索引擎收錄才能獲得搜索引擎推廣的機會(huì )。因此,通過(guò)增加網(wǎng)站內容而實(shí)現網(wǎng)站推廣的策略,本質(zhì)上仍然是搜索引擎推廣方法的一種具體應用形式,應服從于搜索引擎營(yíng)銷(xiāo)的一般原理。網(wǎng)頁(yè)內容是否具有網(wǎng)站推廣的價(jià)值,不僅依賴(lài)于搜索引擎,也取決于用戶(hù)使用搜索引擎的行為,只有做到網(wǎng)頁(yè)內容被搜索引擎收錄,并且在用戶(hù)利用某些關(guān)鍵詞檢索時(shí)出現在檢索結果靠前的位置,才有可能被用戶(hù)發(fā)現并引起進(jìn)一步的興趣。網(wǎng)絡(luò )營(yíng)銷(xiāo)的基本任務(wù)之一就是利用互聯(lián)網(wǎng)手段將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù),網(wǎng)站的內容策略正是實(shí)現這一基本任務(wù)的具體方法之一。
網(wǎng)站內容策略與網(wǎng)站推廣策略密不可分新競爭力的研究認為,網(wǎng)站推廣是個(gè)系統工程,不僅網(wǎng)站建設的專(zhuān)業(yè)水平、網(wǎng)站的功能和結構等因素與網(wǎng)站推廣策略和網(wǎng)站推廣效果直接相關(guān),網(wǎng)站的內容策略同樣直接影響著(zhù)網(wǎng)站推廣的效果。只是在一般網(wǎng)站 搜索引擎營(yíng)銷(xiāo)關(guān)鍵因素推廣策略方面,對網(wǎng)站內容策略的研究比較少,或者很少將網(wǎng)站內容策略與網(wǎng)站推廣策略聯(lián)系起來(lái)??紤]到網(wǎng)站內容對于網(wǎng)站推廣的意義之后,便于協(xié)調網(wǎng)站內容策略與網(wǎng)站推廣策略之間的關(guān)系,兩者均為網(wǎng)絡(luò )營(yíng)銷(xiāo)策略的重要組成部分,應在網(wǎng)絡(luò )營(yíng)銷(xiāo)總體策略層面得到統一。前述分析說(shuō)明,有效的網(wǎng)站內容對于網(wǎng)站推廣策略如此重要,多一個(gè)網(wǎng)頁(yè),只要包含有效關(guān)鍵詞,那么在搜索結果中就多了一次被用戶(hù)發(fā)現的機會(huì ),但是實(shí)際上并不是每個(gè)網(wǎng)站都有很多內容,尤其是用戶(hù)感興趣的內容,因此顯得內容貧乏,這種狀況在許多中小型網(wǎng)站上尤為普遍,好像除了公司簡(jiǎn)介、產(chǎn)品簡(jiǎn)介之外,再沒(méi)有其他內容可以發(fā)布了。那么,應該如何增加網(wǎng)站的有效內容?這正是許多企業(yè)網(wǎng)站面臨的網(wǎng)站推廣難題之一。對此,網(wǎng)上營(yíng)銷(xiāo)新觀(guān)察進(jìn)行的專(zhuān)題研究結論是,增加網(wǎng)站內容的途徑可以從網(wǎng)站內部和外部?jì)蓚€(gè)方面的資源來(lái)考慮增加內容:(1)充分利用內部資源,也就是對網(wǎng)站現有內容的進(jìn)行合理的包裝、優(yōu)化和擴展;(2)合理利用外部資源,包括利用合作伙伴的資源、利用相關(guān)的信息資源,以及將企業(yè)的信息資源通過(guò)其他網(wǎng)站進(jìn)行傳播等
不關(guān)注
就搗蛋
查看全部
搜索引擎營(yíng)銷(xiāo)核心思路
再不點(diǎn)藍字關(guān)注,機會(huì )就要飛走了哦 搜索引擎目前仍然是最主要的網(wǎng)站推廣手段之一,尤其基于自然搜索結果的搜索引擎推廣,到目前為止 搜索引擎營(yíng)銷(xiāo)四個(gè)目標層次仍然是免費的,因此受到眾多中小網(wǎng)站的重視,搜索引擎營(yíng)銷(xiāo)方法也成為網(wǎng)絡(luò )營(yíng)銷(xiāo)方法體系的主要組成部分。目前對于搜索引擎營(yíng)銷(xiāo)的研究,無(wú)論是對于搜索引擎優(yōu)化還是付費搜索引擎廣告,基本上都處于操作層面,如果要對這些具體的操作方法和技巧歸納為搜索引擎推廣的一般規律時(shí),有必要提出這樣的問(wèn)題:搜索引擎推廣的核心思想是什么? 新競爭力通過(guò)對搜索引擎營(yíng)銷(xiāo)的規律深入研究認為:搜索引擎推廣是基于網(wǎng)站內容的推廣——這就是搜索引擎營(yíng)銷(xiāo)的核心思想。這句話(huà)說(shuō)起來(lái)很簡(jiǎn)單,如果仔細分析會(huì )發(fā)現,這句話(huà)的確包含了搜索引擎推廣的一般規律。本文作者在“網(wǎng)站推廣策略之內容推廣思想漫談”一文中提出一個(gè)觀(guān)點(diǎn):“網(wǎng)站內容不僅是大型ICP網(wǎng)站的生命源泉,對于企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的效果同樣是至關(guān)重要的”。因為網(wǎng)站內容本身也是一種有效的網(wǎng)站推廣手段,只是這種推廣需要借助于搜索引擎這個(gè)信息檢索工具,因此網(wǎng)站內容推廣策略實(shí)際上也就是搜索引擎推廣策略的具體應用。搜索引擎營(yíng)銷(xiāo)的核心思想對網(wǎng)站推廣策略的指導意義“搜索引擎推廣是基于網(wǎng)站有效文字信息的推廣”,這一指導思想對制定網(wǎng)站推廣策略的指導意義表現在幾個(gè)方面:網(wǎng)站推廣需要有效的網(wǎng)站內容網(wǎng)站的有效內容,亦即對網(wǎng)站推廣有價(jià)值的內容。
增加網(wǎng)站內容在的作用首先表現在滿(mǎn)足用戶(hù)獲取信息方面,這是任何網(wǎng)站發(fā)布內容的基本目的,從直接瀏覽者的角度來(lái)看,網(wǎng)上的信息通常并不能完全滿(mǎn)足所有 使用搜索引擎營(yíng)銷(xiāo)的企業(yè)行業(yè)用戶(hù)的需要,每增加一個(gè)網(wǎng)頁(yè)的內容,也就意味著(zhù)為滿(mǎn)足用戶(hù)的信息需求需求增加了一點(diǎn)努力。因此網(wǎng)站內容策略的基本出發(fā)點(diǎn)是可以為用戶(hù)提供有效的信息和服務(wù),這樣,無(wú)論用戶(hù)通過(guò)哪種渠道來(lái)到網(wǎng)站,都可以獲得盡可能詳盡的信息。在滿(mǎn)足用戶(hù)這一基本需求的前提下,網(wǎng)站內容還應考慮到搜索引擎的收錄和檢索規律,這樣可以為用戶(hù)通過(guò)搜索引擎獲取網(wǎng)站信息帶來(lái)更多的機會(huì )。搜索引擎收錄的信息量是以網(wǎng)頁(yè)數為單位的,被收錄的每一個(gè)網(wǎng)頁(yè)都有被用戶(hù)發(fā)現的機會(huì ),也只有被搜索引擎收錄才能獲得搜索引擎推廣的機會(huì )。因此,通過(guò)增加網(wǎng)站內容而實(shí)現網(wǎng)站推廣的策略,本質(zhì)上仍然是搜索引擎推廣方法的一種具體應用形式,應服從于搜索引擎營(yíng)銷(xiāo)的一般原理。網(wǎng)頁(yè)內容是否具有網(wǎng)站推廣的價(jià)值,不僅依賴(lài)于搜索引擎,也取決于用戶(hù)使用搜索引擎的行為,只有做到網(wǎng)頁(yè)內容被搜索引擎收錄,并且在用戶(hù)利用某些關(guān)鍵詞檢索時(shí)出現在檢索結果靠前的位置,才有可能被用戶(hù)發(fā)現并引起進(jìn)一步的興趣。網(wǎng)絡(luò )營(yíng)銷(xiāo)的基本任務(wù)之一就是利用互聯(lián)網(wǎng)手段將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù),網(wǎng)站的內容策略正是實(shí)現這一基本任務(wù)的具體方法之一。
網(wǎng)站內容策略與網(wǎng)站推廣策略密不可分新競爭力的研究認為,網(wǎng)站推廣是個(gè)系統工程,不僅網(wǎng)站建設的專(zhuān)業(yè)水平、網(wǎng)站的功能和結構等因素與網(wǎng)站推廣策略和網(wǎng)站推廣效果直接相關(guān),網(wǎng)站的內容策略同樣直接影響著(zhù)網(wǎng)站推廣的效果。只是在一般網(wǎng)站 搜索引擎營(yíng)銷(xiāo)關(guān)鍵因素推廣策略方面,對網(wǎng)站內容策略的研究比較少,或者很少將網(wǎng)站內容策略與網(wǎng)站推廣策略聯(lián)系起來(lái)??紤]到網(wǎng)站內容對于網(wǎng)站推廣的意義之后,便于協(xié)調網(wǎng)站內容策略與網(wǎng)站推廣策略之間的關(guān)系,兩者均為網(wǎng)絡(luò )營(yíng)銷(xiāo)策略的重要組成部分,應在網(wǎng)絡(luò )營(yíng)銷(xiāo)總體策略層面得到統一。前述分析說(shuō)明,有效的網(wǎng)站內容對于網(wǎng)站推廣策略如此重要,多一個(gè)網(wǎng)頁(yè),只要包含有效關(guān)鍵詞,那么在搜索結果中就多了一次被用戶(hù)發(fā)現的機會(huì ),但是實(shí)際上并不是每個(gè)網(wǎng)站都有很多內容,尤其是用戶(hù)感興趣的內容,因此顯得內容貧乏,這種狀況在許多中小型網(wǎng)站上尤為普遍,好像除了公司簡(jiǎn)介、產(chǎn)品簡(jiǎn)介之外,再沒(méi)有其他內容可以發(fā)布了。那么,應該如何增加網(wǎng)站的有效內容?這正是許多企業(yè)網(wǎng)站面臨的網(wǎng)站推廣難題之一。對此,網(wǎng)上營(yíng)銷(xiāo)新觀(guān)察進(jìn)行的專(zhuān)題研究結論是,增加網(wǎng)站內容的途徑可以從網(wǎng)站內部和外部?jì)蓚€(gè)方面的資源來(lái)考慮增加內容:(1)充分利用內部資源,也就是對網(wǎng)站現有內容的進(jìn)行合理的包裝、優(yōu)化和擴展;(2)合理利用外部資源,包括利用合作伙伴的資源、利用相關(guān)的信息資源,以及將企業(yè)的信息資源通過(guò)其他網(wǎng)站進(jìn)行傳播等
不關(guān)注
就搗蛋
搜索引擎框架介紹
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-05-21 02:21
歡迎將公眾號設置為星標,技術(shù)文章第一時(shí)間看到。我們將一如既往精選技術(shù)好文,提供有價(jià)值的閱讀。如果文章對你有幫助,歡迎點(diǎn)個(gè)在看鼓勵作者。
技術(shù)經(jīng)驗交流:
一、搜索引擎基礎介紹1. 什么是搜索引擎
搜索引擎,通常指的是收集了萬(wàn)維網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數據庫的全文搜索引擎。當用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結果被搜出來(lái)。再經(jīng)過(guò)復雜的算法進(jìn)行排序(或者包含商業(yè)化的競價(jià)排名、商業(yè)推廣或者廣告)后,這些結果將按照與搜索關(guān)鍵詞的相關(guān)度高低(或與相關(guān)度毫無(wú)關(guān)系),依次排列。
2. 傳統的搜索與搜索引擎對比
2.1 傳統做法
?。?)文檔中使用系統的Find查找
?。?)mysql中使用like模糊查詢(xún)
存在問(wèn)題:
?。?)海量數據中不能及時(shí)響應,少量數據可以通過(guò)傳統的MySql建立索引解決
?。?)一些無(wú)用詞不能進(jìn)行過(guò)濾,沒(méi)法分詞
?。?)數據量大的話(huà)難以拓展
?。?)相同的數據難以進(jìn)行相似度最高的進(jìn)行排序
2.2 搜索引擎做法
?。?)存儲非結構化的數據
?。?)快速檢索和響應我們需要的信息,快-準
?。?)進(jìn)行相關(guān)性的排序,過(guò)濾等
?。?)可以去掉停用詞(沒(méi)有特殊含義的詞,比如英文的a,is等,中文: 這,的,是等),框架一般支持可以自定義停用詞
二、常見(jiàn)搜索引擎框架介紹與比較1. Java 全文搜索引擎框架 Lucene
1.1 簡(jiǎn)介
Lucene的開(kāi)發(fā)語(yǔ)言是Java,也是Java家族中最為出名的一個(gè)開(kāi)源搜索引擎,在Java世界中已經(jīng)是標準的全文檢索程序,它提供了完整的查詢(xún)引擎和索引引擎,沒(méi)有中文分詞引擎,需要自己去實(shí)現,因此用Lucene去做一個(gè)搜素引擎需要自己去架構,另外它不支持實(shí)時(shí)搜索。但是solr和elasticsearch都是基于Lucene封裝。
1.2 優(yōu)點(diǎn)
成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續快速的進(jìn)步。龐大而活躍的開(kāi)發(fā)社區,大量的開(kāi)發(fā)人員。它只是一個(gè)類(lèi)庫,有足夠的定制和優(yōu)化空間:經(jīng)過(guò)簡(jiǎn)單定制,就可以滿(mǎn)足絕大部分常見(jiàn)的需求;經(jīng)過(guò)優(yōu)化,可以支持 10億+ 量級的搜索。
1.3 缺點(diǎn)
需要額外的開(kāi)發(fā)工作。所有的擴展,分布式,可靠性等都需要自己實(shí)現;非實(shí)時(shí),從建索引到可以搜索中間有一個(gè)時(shí)間延遲,而當前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴展性有待進(jìn)一步完善.
2. Apache Solr
2.1 簡(jiǎn)介
Solr是一個(gè)高性能,采用Java開(kāi)發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過(guò)Http利用XML加到一個(gè)搜索集合中。查詢(xún)該集合也是通過(guò) http收到一個(gè)XML/JSON響應來(lái)實(shí)現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過(guò)索引復制來(lái)提高可用性,提 供一套強大Data Schema來(lái)定義字段,類(lèi)型和設置文本分析,提供基于Web的管理界面等。
2.2 優(yōu)點(diǎn)
?。?)Solr有一個(gè)更大、更成熟的用戶(hù)、開(kāi)發(fā)和貢獻者社區。
?。?)支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
?。?)Solr比較成熟、穩定。
?。?)不考慮建索引的同時(shí)進(jìn)行搜索,速度更快。
2.3 缺點(diǎn)
建立索引時(shí),搜索效率下降,實(shí)時(shí)索引搜索效率不高
3. Elastic Search
3.1 簡(jiǎn)介
ElasticSearch是一個(gè)基于Lucene構建的開(kāi)源,分布式,RESTful搜索引擎。設計用于云計算中,能夠達到實(shí)時(shí)搜索,穩定,可靠,快速,安裝使用方便。支持通過(guò)HTTP使用JSON進(jìn)行數據索引。
3.2 優(yōu)點(diǎn)
?。?)Elasticsearch是分布式的。不需要其他組件,分發(fā)是實(shí)時(shí)的,被叫做”P(pán)ush replication”。
?。?)Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。
?。?)處理多租戶(hù)(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。
?。?)Elasticsearch 采用 Gateway 的概念,使得完備份更加簡(jiǎn)單。
各節點(diǎn)組成對等的網(wǎng)絡(luò )結構,某些節點(diǎn)出現故障時(shí)會(huì )自動(dòng)分配其他節點(diǎn)代替其進(jìn)行工作。
3.3 缺點(diǎn)
還不夠自動(dòng)(不適合當前新的Index Warmup API)
4. Elasticsearch 與 Solr 的比較總結
?。?)二者安裝都很簡(jiǎn)單
?。?)Solr 利用 Zookeeper 進(jìn)行分布式管理,而 Elasticsearch 自身帶有分布式協(xié)調管理功能;
?。?)Solr 支持更多格式的數據,而 Elasticsearch 僅支持json文件格式;
?。?)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;
?。?)Solr 在傳統的搜索應用中表現好于 Elasticsearch,但在處理實(shí)時(shí)搜索應用時(shí)效率明顯低于 Elasticsearch。
?。?)總之,Solr 是傳統搜索應用的有力解決方案,但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應用。
5. Sphinx
5.1 簡(jiǎn)介
Sphinx一個(gè)基于SQL的全文檢索引擎,特別為一些腳本語(yǔ)言(PHP,Python,Perl,Ruby)設計搜索API接口。
Sphinx是一個(gè)用C++語(yǔ)言寫(xiě)的開(kāi)源搜索引擎,也是現在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優(yōu)于Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索,使用起來(lái)比較簡(jiǎn)單方便.
Sphinx可以非常容易的與SQL數據庫和腳本語(yǔ)言集成。當前系統內置MySQL和PostgreSQL 數據庫數據源的支持,也支持從標準輸入讀取特定格式 的XML數據。通過(guò)修改源代碼,用戶(hù)可以自行增加新的數據源(例如:其他類(lèi)型的DBMS 的原生支持)
5.2 特點(diǎn)
?。?)高速的建立索引(在當代CPU上,峰值性能可達到10 MB/秒);
?。?)高性能的搜索(在2 – 4GB 的文本數據上,平均每次檢索響應時(shí)間小于0.1秒);
?。?)可處理海量數據(目前已知可以處理超過(guò)100 GB的文本數據, 在單一CPU的系統上可 處理100 M 文檔);
?。?)提供了優(yōu)秀的相關(guān)度算法,基于短語(yǔ)相似度和統計(BM25)的復合Ranking方法;
?。?)支持分布式搜索;
?。?)支持短語(yǔ)搜索
?。?)提供文檔摘要生成
?。?)可作為MySQL的存儲引擎提供搜索服務(wù);
?。?)支持布爾、短語(yǔ)、詞語(yǔ)相似度等多種檢索模式;
?。?0)文檔支持多個(gè)全文檢索字段(最大不超過(guò)32個(gè));
?。?1)文檔支持多個(gè)額外的屬性信息(例如:分組信息,時(shí)間戳等);
?。?2)支持斷詞;
6. Katta
6.1 簡(jiǎn)介
基于 Lucene 的,支持分布式,可擴展,具有容錯功能,準實(shí)時(shí)的搜索方案。
6.2 優(yōu)點(diǎn)
開(kāi)箱即用,可以與 Hadoop 配合實(shí)現分布式。具備擴展和容錯機制。
6.3 缺點(diǎn)
只是搜索方案,建索引部分還是需要自己實(shí)現。在搜索功能上,只實(shí)現了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分布式,對于一些復雜的查詢(xún)需求,定制的難度會(huì )比較大。
三、參考文章 查看全部
搜索引擎框架介紹
歡迎將公眾號設置為星標,技術(shù)文章第一時(shí)間看到。我們將一如既往精選技術(shù)好文,提供有價(jià)值的閱讀。如果文章對你有幫助,歡迎點(diǎn)個(gè)在看鼓勵作者。
技術(shù)經(jīng)驗交流:
一、搜索引擎基礎介紹1. 什么是搜索引擎
搜索引擎,通常指的是收集了萬(wàn)維網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數據庫的全文搜索引擎。當用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結果被搜出來(lái)。再經(jīng)過(guò)復雜的算法進(jìn)行排序(或者包含商業(yè)化的競價(jià)排名、商業(yè)推廣或者廣告)后,這些結果將按照與搜索關(guān)鍵詞的相關(guān)度高低(或與相關(guān)度毫無(wú)關(guān)系),依次排列。
2. 傳統的搜索與搜索引擎對比
2.1 傳統做法
?。?)文檔中使用系統的Find查找
?。?)mysql中使用like模糊查詢(xún)
存在問(wèn)題:
?。?)海量數據中不能及時(shí)響應,少量數據可以通過(guò)傳統的MySql建立索引解決
?。?)一些無(wú)用詞不能進(jìn)行過(guò)濾,沒(méi)法分詞
?。?)數據量大的話(huà)難以拓展
?。?)相同的數據難以進(jìn)行相似度最高的進(jìn)行排序
2.2 搜索引擎做法
?。?)存儲非結構化的數據
?。?)快速檢索和響應我們需要的信息,快-準
?。?)進(jìn)行相關(guān)性的排序,過(guò)濾等
?。?)可以去掉停用詞(沒(méi)有特殊含義的詞,比如英文的a,is等,中文: 這,的,是等),框架一般支持可以自定義停用詞
二、常見(jiàn)搜索引擎框架介紹與比較1. Java 全文搜索引擎框架 Lucene
1.1 簡(jiǎn)介
Lucene的開(kāi)發(fā)語(yǔ)言是Java,也是Java家族中最為出名的一個(gè)開(kāi)源搜索引擎,在Java世界中已經(jīng)是標準的全文檢索程序,它提供了完整的查詢(xún)引擎和索引引擎,沒(méi)有中文分詞引擎,需要自己去實(shí)現,因此用Lucene去做一個(gè)搜素引擎需要自己去架構,另外它不支持實(shí)時(shí)搜索。但是solr和elasticsearch都是基于Lucene封裝。
1.2 優(yōu)點(diǎn)
成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續快速的進(jìn)步。龐大而活躍的開(kāi)發(fā)社區,大量的開(kāi)發(fā)人員。它只是一個(gè)類(lèi)庫,有足夠的定制和優(yōu)化空間:經(jīng)過(guò)簡(jiǎn)單定制,就可以滿(mǎn)足絕大部分常見(jiàn)的需求;經(jīng)過(guò)優(yōu)化,可以支持 10億+ 量級的搜索。
1.3 缺點(diǎn)
需要額外的開(kāi)發(fā)工作。所有的擴展,分布式,可靠性等都需要自己實(shí)現;非實(shí)時(shí),從建索引到可以搜索中間有一個(gè)時(shí)間延遲,而當前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴展性有待進(jìn)一步完善.
2. Apache Solr
2.1 簡(jiǎn)介
Solr是一個(gè)高性能,采用Java開(kāi)發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過(guò)Http利用XML加到一個(gè)搜索集合中。查詢(xún)該集合也是通過(guò) http收到一個(gè)XML/JSON響應來(lái)實(shí)現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過(guò)索引復制來(lái)提高可用性,提 供一套強大Data Schema來(lái)定義字段,類(lèi)型和設置文本分析,提供基于Web的管理界面等。
2.2 優(yōu)點(diǎn)
?。?)Solr有一個(gè)更大、更成熟的用戶(hù)、開(kāi)發(fā)和貢獻者社區。
?。?)支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
?。?)Solr比較成熟、穩定。
?。?)不考慮建索引的同時(shí)進(jìn)行搜索,速度更快。
2.3 缺點(diǎn)
建立索引時(shí),搜索效率下降,實(shí)時(shí)索引搜索效率不高
3. Elastic Search
3.1 簡(jiǎn)介
ElasticSearch是一個(gè)基于Lucene構建的開(kāi)源,分布式,RESTful搜索引擎。設計用于云計算中,能夠達到實(shí)時(shí)搜索,穩定,可靠,快速,安裝使用方便。支持通過(guò)HTTP使用JSON進(jìn)行數據索引。
3.2 優(yōu)點(diǎn)
?。?)Elasticsearch是分布式的。不需要其他組件,分發(fā)是實(shí)時(shí)的,被叫做”P(pán)ush replication”。
?。?)Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。
?。?)處理多租戶(hù)(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。
?。?)Elasticsearch 采用 Gateway 的概念,使得完備份更加簡(jiǎn)單。
各節點(diǎn)組成對等的網(wǎng)絡(luò )結構,某些節點(diǎn)出現故障時(shí)會(huì )自動(dòng)分配其他節點(diǎn)代替其進(jìn)行工作。
3.3 缺點(diǎn)
還不夠自動(dòng)(不適合當前新的Index Warmup API)
4. Elasticsearch 與 Solr 的比較總結
?。?)二者安裝都很簡(jiǎn)單
?。?)Solr 利用 Zookeeper 進(jìn)行分布式管理,而 Elasticsearch 自身帶有分布式協(xié)調管理功能;
?。?)Solr 支持更多格式的數據,而 Elasticsearch 僅支持json文件格式;
?。?)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;
?。?)Solr 在傳統的搜索應用中表現好于 Elasticsearch,但在處理實(shí)時(shí)搜索應用時(shí)效率明顯低于 Elasticsearch。
?。?)總之,Solr 是傳統搜索應用的有力解決方案,但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應用。
5. Sphinx
5.1 簡(jiǎn)介
Sphinx一個(gè)基于SQL的全文檢索引擎,特別為一些腳本語(yǔ)言(PHP,Python,Perl,Ruby)設計搜索API接口。
Sphinx是一個(gè)用C++語(yǔ)言寫(xiě)的開(kāi)源搜索引擎,也是現在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優(yōu)于Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索,使用起來(lái)比較簡(jiǎn)單方便.
Sphinx可以非常容易的與SQL數據庫和腳本語(yǔ)言集成。當前系統內置MySQL和PostgreSQL 數據庫數據源的支持,也支持從標準輸入讀取特定格式 的XML數據。通過(guò)修改源代碼,用戶(hù)可以自行增加新的數據源(例如:其他類(lèi)型的DBMS 的原生支持)
5.2 特點(diǎn)
?。?)高速的建立索引(在當代CPU上,峰值性能可達到10 MB/秒);
?。?)高性能的搜索(在2 – 4GB 的文本數據上,平均每次檢索響應時(shí)間小于0.1秒);
?。?)可處理海量數據(目前已知可以處理超過(guò)100 GB的文本數據, 在單一CPU的系統上可 處理100 M 文檔);
?。?)提供了優(yōu)秀的相關(guān)度算法,基于短語(yǔ)相似度和統計(BM25)的復合Ranking方法;
?。?)支持分布式搜索;
?。?)支持短語(yǔ)搜索
?。?)提供文檔摘要生成
?。?)可作為MySQL的存儲引擎提供搜索服務(wù);
?。?)支持布爾、短語(yǔ)、詞語(yǔ)相似度等多種檢索模式;
?。?0)文檔支持多個(gè)全文檢索字段(最大不超過(guò)32個(gè));
?。?1)文檔支持多個(gè)額外的屬性信息(例如:分組信息,時(shí)間戳等);
?。?2)支持斷詞;
6. Katta
6.1 簡(jiǎn)介
基于 Lucene 的,支持分布式,可擴展,具有容錯功能,準實(shí)時(shí)的搜索方案。
6.2 優(yōu)點(diǎn)
開(kāi)箱即用,可以與 Hadoop 配合實(shí)現分布式。具備擴展和容錯機制。
6.3 缺點(diǎn)
只是搜索方案,建索引部分還是需要自己實(shí)現。在搜索功能上,只實(shí)現了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分布式,對于一些復雜的查詢(xún)需求,定制的難度會(huì )比較大。
三、參考文章
聊聊搜索引擎--網(wǎng)頁(yè)處理篇
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2022-05-21 02:21
前面的一篇文章發(fā)得有點(diǎn)匆忙,主要是想在大家過(guò)節前發(fā)一篇,別浪費了公眾號的發(fā)送次數。上文《》談的是爬蟲(chóng)部分。文章里提到之前寫(xiě)過(guò)兩篇有關(guān)搜索的文章,忘了鏈接過(guò)去了,這里放一下,方便有興趣的讀者閱讀。
《》
《》
前文提到,搜索引擎一般可以分為爬蟲(chóng)模塊,網(wǎng)頁(yè)處理,索引模塊,檢索模塊,排序模塊幾個(gè)模塊。爬蟲(chóng)負責抓取數據,算是數據生產(chǎn)方。今天我們要說(shuō)的是數據的加工部門(mén)。也就是網(wǎng)頁(yè)處理。
網(wǎng)頁(yè)處理在大部分介紹里,都算在爬蟲(chóng)部分。我呆過(guò)的第一家公司,并沒(méi)有網(wǎng)頁(yè)處理相關(guān)的小組。我當時(shí)基本上算是最主要的網(wǎng)頁(yè)處理工程師了,寫(xiě)了包括網(wǎng)頁(yè)解析基礎庫,各種網(wǎng)頁(yè)里的質(zhì)量信號的抽取等。不過(guò)我呆過(guò)的第二家搜索公司,當時(shí)有一個(gè)小組是專(zhuān)門(mén)做網(wǎng)頁(yè)解析的。當然,本文要談的不局限于網(wǎng)頁(yè)解析,而是在索引之前的搜索特征提取。在我做搜索的時(shí)候,機器學(xué)習還沒(méi)那么火,我們一般叫質(zhì)量信號之類(lèi)的。但是這些質(zhì)量信號,主要是服務(wù)排序的,排序作為一個(gè)機器學(xué)習任務(wù),使用到的因素,我們稱(chēng)之為特征比較好理解。而網(wǎng)頁(yè)解析等大部分工作,可以看成網(wǎng)頁(yè)排序這個(gè)復雜Task的特征工程。
Index pipeline
在一個(gè)網(wǎng)頁(yè)搜索中,完整的index pipeline 很復雜,涉及到死鏈檢測,soft 404頁(yè)面檢測,標題抽取,正文抽取,網(wǎng)頁(yè)發(fā)布時(shí)間抽取,結構化信息抽?。ū热缯搲母鱾€(gè)帖子的內容,作者,時(shí)間等。再比如電影的導演,主演,名字,別名等),host rank 計算,page rank計算,色情頁(yè)面檢測,垃圾頁(yè)面檢測,作弊網(wǎng)頁(yè)檢測,重復頁(yè)面檢測,病毒頁(yè)面檢測等等。
Html Parser
那么要完成這么多的搜索排序的特征工程,首先我們需要打造一個(gè)方便易用的網(wǎng)頁(yè)解析庫。一般我們會(huì )實(shí)現一個(gè)html parser, 基本DomTree 或者是SAX。編寫(xiě)一個(gè)這樣的引擎并不容易。解析一個(gè)網(wǎng)頁(yè)比較容易,但是要能夠解析幾千億的網(wǎng)頁(yè)而不crash,并且碰到網(wǎng)頁(yè)很大(比如超過(guò)2M),或者網(wǎng)頁(yè)很病態(tài)(比如只有open tag, 沒(méi)有close tag),解析的速度還能夠很快,并且內存依然不會(huì )爆掉,需要對這個(gè)網(wǎng)頁(yè)解析庫進(jìn)行千錘百煉。當然,網(wǎng)上已經(jīng)有了不少開(kāi)源的解析庫了。不過(guò)大部分情況是這樣的,要不接口不友好,要不性能糟糕,要么代碼風(fēng)格不好。之前谷歌也開(kāi)源了一個(gè)網(wǎng)頁(yè)解析的項目,我們測試下來(lái),性能實(shí)在是跟不上,不太適合搜索引擎。
Xpath
網(wǎng)頁(yè)解析除了html parser ,一般還需要方便工程師進(jìn)行網(wǎng)頁(yè)信息抽取,最好是基于配置文件進(jìn)行抽取,因此一般需要支持xpath 查詢(xún)語(yǔ)言。Xpath 的資料網(wǎng)上很豐富,大家有興趣可以結合XML語(yǔ)言去學(xué)習了解。那如何高效支持 Xpath 進(jìn)行信息抽取,甚至基于整個(gè)配置文件來(lái)抽取某一類(lèi)網(wǎng)頁(yè),甚至某一類(lèi)網(wǎng)站的多種信息抽取,就又有更高level的需求了,比如是否實(shí)現一個(gè)template config parser 之類(lèi)的解析庫。 核心訴求是,配置規則很簡(jiǎn)單,方便易學(xué),甚至可以找一些三四千塊錢(qián)的編輯就可以進(jìn)行配置。那么怎么把這個(gè)庫實(shí)現得優(yōu)雅高效,方便易學(xué),甚至如何開(kāi)發(fā)出一些配套的瀏覽器工具,便是這塊的核心競爭力。據我所知,百度等搜索公司對這方面都花了不少研發(fā)精力。
網(wǎng)頁(yè)解析這里有一個(gè)核心競爭力在于,如何利用你的工程能力,對網(wǎng)頁(yè)解析庫這樣底層的基礎工具進(jìn)行性能優(yōu)化,比如優(yōu)化個(gè)10-20%,或者優(yōu)化了三五倍的性能出來(lái),那整體的搜索引擎相關(guān)的計算集群資源,就能得到很大的改進(jìn),省出來(lái)的銀子,不見(jiàn)得比索引性能優(yōu)化,或者是檢索性能優(yōu)化,或者是各種機器學(xué)習模型的排序性能優(yōu)化來(lái)得少。
CSS Parser
網(wǎng)頁(yè)解析還有好幾個(gè)有挑戰的事情,比如要解析出來(lái)網(wǎng)頁(yè)里字體的大?。ㄗ煮w很小也是作弊的手段之一),顏色(顏色搞成和背景色一樣,也是作弊的手段之一),或者是文字是否可見(jiàn)(常規的作弊手段之一)等,都是需要比較高階的解析的。如果學(xué)過(guò)網(wǎng)頁(yè)設計,大家應該知道這塊需要對CSS進(jìn)行解析。CSS一般分為tag 內部的,html 文件內的,外部CSS文件等。那么如何高效地進(jìn)行CSS文件,并與HTML解析結果進(jìn)行結合,就有不少工作值得深入。
此外,CSS文件的壓縮和存儲/讀取,也有一定的挑戰。原因在于,不像html 這樣,大部分網(wǎng)頁(yè)的內容差異都比較大,CSS 一般是給一個(gè)網(wǎng)站,或者是一類(lèi)風(fēng)格的網(wǎng)頁(yè)設計的,文件的規模比較少。有一些建站工具做出來(lái)的,甚至大部分CSS都一樣。既然CSS文件的內容有特殊的規律,那么針對CSS的壓縮,可能就會(huì )存在特殊的算法。還有一個(gè)問(wèn)題是,網(wǎng)頁(yè)的內容可能不會(huì )變,但是網(wǎng)頁(yè)的風(fēng)格卻可能會(huì )被更新。在網(wǎng)頁(yè)解析的時(shí)候,往往一次性分析百億級別的網(wǎng)頁(yè),那如何高效讀取各個(gè)網(wǎng)頁(yè)對應的CSS文件呢?實(shí)時(shí)抓取么?還是存在mysql ? Nosql ? 還是怎么去特殊處理?
CSS 文件怎么解析呢? 也有不少開(kāi)源的項目,當然也可以參考各大瀏覽器開(kāi)源項目。不過(guò)瀏覽器項目里一般代碼依賴(lài)比較復雜,很難單獨抽取出來(lái)。
Javascript
其實(shí)這部分放在爬蟲(chóng)部分更合適。在抓取的時(shí)候,往往會(huì )碰到頁(yè)面跳轉,或者是有一部分關(guān)鍵的網(wǎng)頁(yè)內容,是在頁(yè)面本身加載完畢后,才開(kāi)始動(dòng)態(tài)加載的。比如做新聞的Hub頁(yè)抓取的時(shí)候,往往會(huì )發(fā)現我們想要的新聞內容頁(yè)的鏈接信息,是通過(guò) js 來(lái)生成的。那怎么辦?如果只是抓取一個(gè)網(wǎng)站,當然我們可以通過(guò)抓包分析,靠人工來(lái)總結瀏覽器背后的網(wǎng)絡(luò )行為,然后寫(xiě)代碼模擬瀏覽器的行為。通用點(diǎn)的,公司內搭建或者開(kāi)發(fā)一套瀏覽器抓取的方案,特殊的網(wǎng)頁(yè),都使用這些特殊的抓取服務(wù)來(lái)抓,這樣在下游做網(wǎng)頁(yè)解析的時(shí)候,看到的 html 都是一樣帶有我們想要抽取的頁(yè)面內容的了。
之所以放在這部分,很簡(jiǎn)單,js 是一門(mén)腳本語(yǔ)言,腳本語(yǔ)言的執行,其實(shí)也可以看成解析引擎在跑,只是這里的解析是腳本語(yǔ)言,而不是HTML 或者 XML 這樣的標記語(yǔ)言。
網(wǎng)頁(yè)特征抽取
不僅是搜索排序需要網(wǎng)頁(yè)特征抽取,掛在網(wǎng)頁(yè)里的廣告系統,也需要使用到網(wǎng)頁(yè)相關(guān)的信息,以判定哪些網(wǎng)頁(yè)和哪些商業(yè)關(guān)鍵詞更相關(guān)。
那么前面提到的特種網(wǎng)頁(yè)特征,活學(xué)活用上面提到的一些解析引擎就差不多了。當然做這個(gè)工作,很多時(shí)候需要有一雙善于觀(guān)察的眼睛。主要是幾個(gè)原因:
和網(wǎng)頁(yè)處理相關(guān)的話(huà)題,其中有一個(gè)是非常重要的,一個(gè)是page rank, host rank, 一個(gè)是反作弊。Pagerank 的資料網(wǎng)上可以說(shuō)是汗牛充棟了,谷歌和百度的創(chuàng )始人們,也都有這方面的論文或者專(zhuān)利。感興趣的讀者建議直接找一些相關(guān)的論文來(lái)閱讀。
反作弊和SEO
說(shuō)到反作弊,有興趣的可以看谷歌反作弊工程師的博客。網(wǎng)址忘了,自己搜索。業(yè)界很多做SEO的人,據說(shuō)都會(huì )去閱讀上面的文章并做各種研究。反作弊和作弊這個(gè)事兒,和信息安全與病毒的關(guān)系差不多,因為作弊能夠帶來(lái)商業(yè)上的好處,所以商業(yè)搜索引擎和作弊者的斗爭永遠沒(méi)有結束的時(shí)候。道高一尺魔高一丈,這會(huì )這些作弊的策略騙過(guò)了搜索引擎,明天可能就整站被下掉了。
說(shuō)過(guò)反作弊和SEO,往往外面的人覺(jué)得做搜索引擎開(kāi)發(fā)的工程師都有特權,知道怎么去操縱網(wǎng)頁(yè)的權重,其實(shí)都是想多了。一來(lái),這事兒不是誰(shuí)都懂,二來(lái),這事兒關(guān)乎職場(chǎng)道德,三來(lái),這事兒值錢(qián)的話(huà),我為啥免費給你干?
當然,反作弊的工作,往往也會(huì )干倒一大批,誤傷三五家。我身邊就有幾個(gè)朋友曾經(jīng)碰到類(lèi)似的情況,托我幫找朋友去解決問(wèn)題。
反作弊的話(huà)題和SEO的話(huà)題都挺大的,我自己也不太刪除。SEO之前曾經(jīng)閱讀過(guò)一本專(zhuān)著(zhù),好像是新加坡的一個(gè)哥們寫(xiě)的,現在忘了差不多了,不過(guò)大概的策略倒是和搜索排序的因子差不多正相關(guān)的。反作弊的話(huà)題,我記得吳軍的《數學(xué)之美》曾有專(zhuān)門(mén)章節論述,有興趣的同學(xué)也可以找來(lái)看看。吳軍在谷歌的時(shí)候,應該專(zhuān)門(mén)從事過(guò)一段時(shí)間反作弊系統的研發(fā)。
好了,這部分話(huà)題先分享到這里,下文分享下索引相關(guān)的話(huà)題。 查看全部
聊聊搜索引擎--網(wǎng)頁(yè)處理篇
前面的一篇文章發(fā)得有點(diǎn)匆忙,主要是想在大家過(guò)節前發(fā)一篇,別浪費了公眾號的發(fā)送次數。上文《》談的是爬蟲(chóng)部分。文章里提到之前寫(xiě)過(guò)兩篇有關(guān)搜索的文章,忘了鏈接過(guò)去了,這里放一下,方便有興趣的讀者閱讀。
《》
《》
前文提到,搜索引擎一般可以分為爬蟲(chóng)模塊,網(wǎng)頁(yè)處理,索引模塊,檢索模塊,排序模塊幾個(gè)模塊。爬蟲(chóng)負責抓取數據,算是數據生產(chǎn)方。今天我們要說(shuō)的是數據的加工部門(mén)。也就是網(wǎng)頁(yè)處理。
網(wǎng)頁(yè)處理在大部分介紹里,都算在爬蟲(chóng)部分。我呆過(guò)的第一家公司,并沒(méi)有網(wǎng)頁(yè)處理相關(guān)的小組。我當時(shí)基本上算是最主要的網(wǎng)頁(yè)處理工程師了,寫(xiě)了包括網(wǎng)頁(yè)解析基礎庫,各種網(wǎng)頁(yè)里的質(zhì)量信號的抽取等。不過(guò)我呆過(guò)的第二家搜索公司,當時(shí)有一個(gè)小組是專(zhuān)門(mén)做網(wǎng)頁(yè)解析的。當然,本文要談的不局限于網(wǎng)頁(yè)解析,而是在索引之前的搜索特征提取。在我做搜索的時(shí)候,機器學(xué)習還沒(méi)那么火,我們一般叫質(zhì)量信號之類(lèi)的。但是這些質(zhì)量信號,主要是服務(wù)排序的,排序作為一個(gè)機器學(xué)習任務(wù),使用到的因素,我們稱(chēng)之為特征比較好理解。而網(wǎng)頁(yè)解析等大部分工作,可以看成網(wǎng)頁(yè)排序這個(gè)復雜Task的特征工程。
Index pipeline
在一個(gè)網(wǎng)頁(yè)搜索中,完整的index pipeline 很復雜,涉及到死鏈檢測,soft 404頁(yè)面檢測,標題抽取,正文抽取,網(wǎng)頁(yè)發(fā)布時(shí)間抽取,結構化信息抽?。ū热缯搲母鱾€(gè)帖子的內容,作者,時(shí)間等。再比如電影的導演,主演,名字,別名等),host rank 計算,page rank計算,色情頁(yè)面檢測,垃圾頁(yè)面檢測,作弊網(wǎng)頁(yè)檢測,重復頁(yè)面檢測,病毒頁(yè)面檢測等等。
Html Parser
那么要完成這么多的搜索排序的特征工程,首先我們需要打造一個(gè)方便易用的網(wǎng)頁(yè)解析庫。一般我們會(huì )實(shí)現一個(gè)html parser, 基本DomTree 或者是SAX。編寫(xiě)一個(gè)這樣的引擎并不容易。解析一個(gè)網(wǎng)頁(yè)比較容易,但是要能夠解析幾千億的網(wǎng)頁(yè)而不crash,并且碰到網(wǎng)頁(yè)很大(比如超過(guò)2M),或者網(wǎng)頁(yè)很病態(tài)(比如只有open tag, 沒(méi)有close tag),解析的速度還能夠很快,并且內存依然不會(huì )爆掉,需要對這個(gè)網(wǎng)頁(yè)解析庫進(jìn)行千錘百煉。當然,網(wǎng)上已經(jīng)有了不少開(kāi)源的解析庫了。不過(guò)大部分情況是這樣的,要不接口不友好,要不性能糟糕,要么代碼風(fēng)格不好。之前谷歌也開(kāi)源了一個(gè)網(wǎng)頁(yè)解析的項目,我們測試下來(lái),性能實(shí)在是跟不上,不太適合搜索引擎。
Xpath
網(wǎng)頁(yè)解析除了html parser ,一般還需要方便工程師進(jìn)行網(wǎng)頁(yè)信息抽取,最好是基于配置文件進(jìn)行抽取,因此一般需要支持xpath 查詢(xún)語(yǔ)言。Xpath 的資料網(wǎng)上很豐富,大家有興趣可以結合XML語(yǔ)言去學(xué)習了解。那如何高效支持 Xpath 進(jìn)行信息抽取,甚至基于整個(gè)配置文件來(lái)抽取某一類(lèi)網(wǎng)頁(yè),甚至某一類(lèi)網(wǎng)站的多種信息抽取,就又有更高level的需求了,比如是否實(shí)現一個(gè)template config parser 之類(lèi)的解析庫。 核心訴求是,配置規則很簡(jiǎn)單,方便易學(xué),甚至可以找一些三四千塊錢(qián)的編輯就可以進(jìn)行配置。那么怎么把這個(gè)庫實(shí)現得優(yōu)雅高效,方便易學(xué),甚至如何開(kāi)發(fā)出一些配套的瀏覽器工具,便是這塊的核心競爭力。據我所知,百度等搜索公司對這方面都花了不少研發(fā)精力。
網(wǎng)頁(yè)解析這里有一個(gè)核心競爭力在于,如何利用你的工程能力,對網(wǎng)頁(yè)解析庫這樣底層的基礎工具進(jìn)行性能優(yōu)化,比如優(yōu)化個(gè)10-20%,或者優(yōu)化了三五倍的性能出來(lái),那整體的搜索引擎相關(guān)的計算集群資源,就能得到很大的改進(jìn),省出來(lái)的銀子,不見(jiàn)得比索引性能優(yōu)化,或者是檢索性能優(yōu)化,或者是各種機器學(xué)習模型的排序性能優(yōu)化來(lái)得少。
CSS Parser
網(wǎng)頁(yè)解析還有好幾個(gè)有挑戰的事情,比如要解析出來(lái)網(wǎng)頁(yè)里字體的大?。ㄗ煮w很小也是作弊的手段之一),顏色(顏色搞成和背景色一樣,也是作弊的手段之一),或者是文字是否可見(jiàn)(常規的作弊手段之一)等,都是需要比較高階的解析的。如果學(xué)過(guò)網(wǎng)頁(yè)設計,大家應該知道這塊需要對CSS進(jìn)行解析。CSS一般分為tag 內部的,html 文件內的,外部CSS文件等。那么如何高效地進(jìn)行CSS文件,并與HTML解析結果進(jìn)行結合,就有不少工作值得深入。
此外,CSS文件的壓縮和存儲/讀取,也有一定的挑戰。原因在于,不像html 這樣,大部分網(wǎng)頁(yè)的內容差異都比較大,CSS 一般是給一個(gè)網(wǎng)站,或者是一類(lèi)風(fēng)格的網(wǎng)頁(yè)設計的,文件的規模比較少。有一些建站工具做出來(lái)的,甚至大部分CSS都一樣。既然CSS文件的內容有特殊的規律,那么針對CSS的壓縮,可能就會(huì )存在特殊的算法。還有一個(gè)問(wèn)題是,網(wǎng)頁(yè)的內容可能不會(huì )變,但是網(wǎng)頁(yè)的風(fēng)格卻可能會(huì )被更新。在網(wǎng)頁(yè)解析的時(shí)候,往往一次性分析百億級別的網(wǎng)頁(yè),那如何高效讀取各個(gè)網(wǎng)頁(yè)對應的CSS文件呢?實(shí)時(shí)抓取么?還是存在mysql ? Nosql ? 還是怎么去特殊處理?
CSS 文件怎么解析呢? 也有不少開(kāi)源的項目,當然也可以參考各大瀏覽器開(kāi)源項目。不過(guò)瀏覽器項目里一般代碼依賴(lài)比較復雜,很難單獨抽取出來(lái)。
Javascript
其實(shí)這部分放在爬蟲(chóng)部分更合適。在抓取的時(shí)候,往往會(huì )碰到頁(yè)面跳轉,或者是有一部分關(guān)鍵的網(wǎng)頁(yè)內容,是在頁(yè)面本身加載完畢后,才開(kāi)始動(dòng)態(tài)加載的。比如做新聞的Hub頁(yè)抓取的時(shí)候,往往會(huì )發(fā)現我們想要的新聞內容頁(yè)的鏈接信息,是通過(guò) js 來(lái)生成的。那怎么辦?如果只是抓取一個(gè)網(wǎng)站,當然我們可以通過(guò)抓包分析,靠人工來(lái)總結瀏覽器背后的網(wǎng)絡(luò )行為,然后寫(xiě)代碼模擬瀏覽器的行為。通用點(diǎn)的,公司內搭建或者開(kāi)發(fā)一套瀏覽器抓取的方案,特殊的網(wǎng)頁(yè),都使用這些特殊的抓取服務(wù)來(lái)抓,這樣在下游做網(wǎng)頁(yè)解析的時(shí)候,看到的 html 都是一樣帶有我們想要抽取的頁(yè)面內容的了。
之所以放在這部分,很簡(jiǎn)單,js 是一門(mén)腳本語(yǔ)言,腳本語(yǔ)言的執行,其實(shí)也可以看成解析引擎在跑,只是這里的解析是腳本語(yǔ)言,而不是HTML 或者 XML 這樣的標記語(yǔ)言。
網(wǎng)頁(yè)特征抽取
不僅是搜索排序需要網(wǎng)頁(yè)特征抽取,掛在網(wǎng)頁(yè)里的廣告系統,也需要使用到網(wǎng)頁(yè)相關(guān)的信息,以判定哪些網(wǎng)頁(yè)和哪些商業(yè)關(guān)鍵詞更相關(guān)。
那么前面提到的特種網(wǎng)頁(yè)特征,活學(xué)活用上面提到的一些解析引擎就差不多了。當然做這個(gè)工作,很多時(shí)候需要有一雙善于觀(guān)察的眼睛。主要是幾個(gè)原因:
和網(wǎng)頁(yè)處理相關(guān)的話(huà)題,其中有一個(gè)是非常重要的,一個(gè)是page rank, host rank, 一個(gè)是反作弊。Pagerank 的資料網(wǎng)上可以說(shuō)是汗牛充棟了,谷歌和百度的創(chuàng )始人們,也都有這方面的論文或者專(zhuān)利。感興趣的讀者建議直接找一些相關(guān)的論文來(lái)閱讀。
反作弊和SEO
說(shuō)到反作弊,有興趣的可以看谷歌反作弊工程師的博客。網(wǎng)址忘了,自己搜索。業(yè)界很多做SEO的人,據說(shuō)都會(huì )去閱讀上面的文章并做各種研究。反作弊和作弊這個(gè)事兒,和信息安全與病毒的關(guān)系差不多,因為作弊能夠帶來(lái)商業(yè)上的好處,所以商業(yè)搜索引擎和作弊者的斗爭永遠沒(méi)有結束的時(shí)候。道高一尺魔高一丈,這會(huì )這些作弊的策略騙過(guò)了搜索引擎,明天可能就整站被下掉了。
說(shuō)過(guò)反作弊和SEO,往往外面的人覺(jué)得做搜索引擎開(kāi)發(fā)的工程師都有特權,知道怎么去操縱網(wǎng)頁(yè)的權重,其實(shí)都是想多了。一來(lái),這事兒不是誰(shuí)都懂,二來(lái),這事兒關(guān)乎職場(chǎng)道德,三來(lái),這事兒值錢(qián)的話(huà),我為啥免費給你干?
當然,反作弊的工作,往往也會(huì )干倒一大批,誤傷三五家。我身邊就有幾個(gè)朋友曾經(jīng)碰到類(lèi)似的情況,托我幫找朋友去解決問(wèn)題。
反作弊的話(huà)題和SEO的話(huà)題都挺大的,我自己也不太刪除。SEO之前曾經(jīng)閱讀過(guò)一本專(zhuān)著(zhù),好像是新加坡的一個(gè)哥們寫(xiě)的,現在忘了差不多了,不過(guò)大概的策略倒是和搜索排序的因子差不多正相關(guān)的。反作弊的話(huà)題,我記得吳軍的《數學(xué)之美》曾有專(zhuān)門(mén)章節論述,有興趣的同學(xué)也可以找來(lái)看看。吳軍在谷歌的時(shí)候,應該專(zhuān)門(mén)從事過(guò)一段時(shí)間反作弊系統的研發(fā)。
好了,這部分話(huà)題先分享到這里,下文分享下索引相關(guān)的話(huà)題。
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-上海怡健醫學(xué)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2022-05-18 18:04
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.總體策略locally+not-recall值對商品重要性進(jìn)行評估locallyanalyzedkeywords;以找出關(guān)鍵詞最為關(guān)鍵的字組做為最先找到的關(guān)鍵詞與其進(jìn)行評估locallyimprovedtherankingpractice;使商品呈現出重要性,可選擇符合要求的另一商品進(jìn)行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接進(jìn)行方案設計,允許多個(gè)關(guān)鍵字組進(jìn)行競爭,但取出那些,實(shí)際用戶(hù)搜索次數較少的關(guān)鍵字locallydefinedtheassets;找出并剔除對于構建大型數據集,這點(diǎn)很重要---這樣可以簡(jiǎn)化框架數據結構簡(jiǎn)化機器學(xué)習模型2.字段設計風(fēng)格采用某一小類(lèi)的一個(gè)特征來(lái)配置整個(gè)模型是有效的,與其關(guān)聯(lián)的字段可以有各種可能,比如此關(guān)鍵字是屬于手機的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
你可以考慮屬性之間的關(guān)系,比如你是無(wú)線(xiàn)商品,那么你是否為相似商品呢?也可以考慮下整個(gè)商品的特征所在庫中是否有索引,比如系統的業(yè)務(wù)有多少條商品相似的查詢(xún)?你可以用linguisticas_key()字段模擬查詢(xún)n.可以用集合的字段配置商品類(lèi)別(如not-recallunion)4.對于數據的取樣采用特征隨機去重后nms+shufflenetcrf等。 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-上海怡健醫學(xué)
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.總體策略locally+not-recall值對商品重要性進(jìn)行評估locallyanalyzedkeywords;以找出關(guān)鍵詞最為關(guān)鍵的字組做為最先找到的關(guān)鍵詞與其進(jìn)行評估locallyimprovedtherankingpractice;使商品呈現出重要性,可選擇符合要求的另一商品進(jìn)行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接進(jìn)行方案設計,允許多個(gè)關(guān)鍵字組進(jìn)行競爭,但取出那些,實(shí)際用戶(hù)搜索次數較少的關(guān)鍵字locallydefinedtheassets;找出并剔除對于構建大型數據集,這點(diǎn)很重要---這樣可以簡(jiǎn)化框架數據結構簡(jiǎn)化機器學(xué)習模型2.字段設計風(fēng)格采用某一小類(lèi)的一個(gè)特征來(lái)配置整個(gè)模型是有效的,與其關(guān)聯(lián)的字段可以有各種可能,比如此關(guān)鍵字是屬于手機的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
你可以考慮屬性之間的關(guān)系,比如你是無(wú)線(xiàn)商品,那么你是否為相似商品呢?也可以考慮下整個(gè)商品的特征所在庫中是否有索引,比如系統的業(yè)務(wù)有多少條商品相似的查詢(xún)?你可以用linguisticas_key()字段模擬查詢(xún)n.可以用集合的字段配置商品類(lèi)別(如not-recallunion)4.對于數據的取樣采用特征隨機去重后nms+shufflenetcrf等。
國內數據庫對搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 97 次瀏覽 ? 2022-05-15 01:01
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法十多年來(lái),搜索引擎優(yōu)化一直是一項長(cháng)期的技術(shù)工作,對搜索引擎內部很多相關(guān)過(guò)程都進(jìn)行了梳理和分析,獲得了很多相關(guān)的知識。然而搜索引擎優(yōu)化的傳統方法無(wú)法獲得目標網(wǎng)站的內容的相關(guān)性分析的基礎,所以搜索引擎方法一直作為基礎方法來(lái)使用。所以,中國知網(wǎng)等國內數據庫對這些方法來(lái)說(shuō)可以作為第一步。
搜索引擎優(yōu)化主要思想是在滿(mǎn)足內容搜索規律的前提下,通過(guò)各種手段降低用戶(hù)點(diǎn)擊搜索結果的概率,最大化用戶(hù)體驗。那么我們將搜索引擎優(yōu)化分成兩個(gè)階段,提供相關(guān)性和改進(jìn)用戶(hù)體驗。第一階段(提供相關(guān)性):打破原網(wǎng)站舊的搜索結果信息,建立新的網(wǎng)站結果,提供新的內容,也就是原網(wǎng)站信息為搜索引擎優(yōu)化第一階段提供的內容,并針對網(wǎng)站,服務(wù)器及時(shí)修正搜索結果。
提供新信息會(huì )直接提高網(wǎng)站的排名。同時(shí)可以找到更多的潛在信息,獲得更多的潛在信息,也會(huì )提高網(wǎng)站排名。在提供這些新內容的同時(shí),也會(huì )根據網(wǎng)站內容進(jìn)行調整和更新,網(wǎng)站速度也會(huì )變快。提供相關(guān)性的同時(shí),這些新內容也需要進(jìn)行同步更新,也會(huì )加大網(wǎng)站傳播速度,加快網(wǎng)站擴張速度?,F有內容為搜索引擎優(yōu)化方法帶來(lái)了更多的信息。
這些信息用來(lái)拓展搜索內容的可能性,搜索量也會(huì )越來(lái)越大。此時(shí)搜索引擎優(yōu)化有些類(lèi)似與百度這樣大量的使用用戶(hù)對于新內容的搜索方式。在新內容設置中有一個(gè)設置,就是在內容設置中選擇是否要進(jìn)行適當的網(wǎng)絡(luò )爬蟲(chóng)抓取。如果無(wú)這個(gè)選項,由于搜索引擎的爬蟲(chóng)會(huì )對第一網(wǎng)站進(jìn)行抓取,會(huì )提高網(wǎng)站的內容爬取率。速度也會(huì )加快。并且會(huì )直接產(chǎn)生一個(gè)優(yōu)化效果,由于百度大量的爬蟲(chóng)爬取的原因,新內容也會(huì )不斷地進(jìn)入第一網(wǎng)站。 查看全部
國內數據庫對搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法十多年來(lái),搜索引擎優(yōu)化一直是一項長(cháng)期的技術(shù)工作,對搜索引擎內部很多相關(guān)過(guò)程都進(jìn)行了梳理和分析,獲得了很多相關(guān)的知識。然而搜索引擎優(yōu)化的傳統方法無(wú)法獲得目標網(wǎng)站的內容的相關(guān)性分析的基礎,所以搜索引擎方法一直作為基礎方法來(lái)使用。所以,中國知網(wǎng)等國內數據庫對這些方法來(lái)說(shuō)可以作為第一步。
搜索引擎優(yōu)化主要思想是在滿(mǎn)足內容搜索規律的前提下,通過(guò)各種手段降低用戶(hù)點(diǎn)擊搜索結果的概率,最大化用戶(hù)體驗。那么我們將搜索引擎優(yōu)化分成兩個(gè)階段,提供相關(guān)性和改進(jìn)用戶(hù)體驗。第一階段(提供相關(guān)性):打破原網(wǎng)站舊的搜索結果信息,建立新的網(wǎng)站結果,提供新的內容,也就是原網(wǎng)站信息為搜索引擎優(yōu)化第一階段提供的內容,并針對網(wǎng)站,服務(wù)器及時(shí)修正搜索結果。
提供新信息會(huì )直接提高網(wǎng)站的排名。同時(shí)可以找到更多的潛在信息,獲得更多的潛在信息,也會(huì )提高網(wǎng)站排名。在提供這些新內容的同時(shí),也會(huì )根據網(wǎng)站內容進(jìn)行調整和更新,網(wǎng)站速度也會(huì )變快。提供相關(guān)性的同時(shí),這些新內容也需要進(jìn)行同步更新,也會(huì )加大網(wǎng)站傳播速度,加快網(wǎng)站擴張速度?,F有內容為搜索引擎優(yōu)化方法帶來(lái)了更多的信息。
這些信息用來(lái)拓展搜索內容的可能性,搜索量也會(huì )越來(lái)越大。此時(shí)搜索引擎優(yōu)化有些類(lèi)似與百度這樣大量的使用用戶(hù)對于新內容的搜索方式。在新內容設置中有一個(gè)設置,就是在內容設置中選擇是否要進(jìn)行適當的網(wǎng)絡(luò )爬蟲(chóng)抓取。如果無(wú)這個(gè)選項,由于搜索引擎的爬蟲(chóng)會(huì )對第一網(wǎng)站進(jìn)行抓取,會(huì )提高網(wǎng)站的內容爬取率。速度也會(huì )加快。并且會(huì )直接產(chǎn)生一個(gè)優(yōu)化效果,由于百度大量的爬蟲(chóng)爬取的原因,新內容也會(huì )不斷地進(jìn)入第一網(wǎng)站。
檢索技巧 | 這些科技信息檢索技巧,學(xué)到了嗎?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 201 次瀏覽 ? 2022-05-14 19:25
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧” 查看全部
檢索技巧 | 這些科技信息檢索技巧,學(xué)到了嗎?
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧”
外貿業(yè)務(wù)員應該知道的搜索引擎查詢(xún)方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-05-14 04:35
所謂搜索引擎,是指根據一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統。從用戶(hù)的角度來(lái)講,搜索引擎就是幫助用戶(hù)方便地查詢(xún)網(wǎng)上信息的。而對于外貿業(yè)務(wù)員,那么搜索引擎就可以被用來(lái)尋找客戶(hù)、查詢(xún)客戶(hù)信息等。 但是如果外貿業(yè)務(wù)員不熟悉搜索引擎的話(huà),往往輸入搜索詞后出現了成百上千個(gè)查詢(xún)結果,而這些結果中并沒(méi)有多少想要的東西。面對著(zhù)一堆信息垃圾,可想而知這時(shí)業(yè)務(wù)員的心情該是如何的沮喪。不過(guò),這不是因為搜索引擎沒(méi)有用,而是由于外貿業(yè)務(wù)員沒(méi)能很好地駕馭它,沒(méi)有掌握它的使用技巧,才導致這樣的后果。 其實(shí),每個(gè)搜索引擎都有自己的查詢(xún)方法,只有熟練的掌握它才能運用自如。雖然,不同的搜索引擎提供的查詢(xún)方法不完全相同,但是一些通用的查詢(xún)方法,各個(gè)搜索引擎基本上都具有,下面就逐一介紹一些常用的查詢(xún)方法。 一、簡(jiǎn)單查詢(xún) 在搜索引擎中輸入關(guān)鍵詞,然后點(diǎn)擊“搜索”就行了,系統很快會(huì )返回查詢(xún)結果,這是最簡(jiǎn)單的查詢(xún)方法,使用方便,但是查詢(xún)的結果卻不準確,可能包含著(zhù)許多無(wú)用的信息。 二、使用雙引號("") 給要查詢(xún)的關(guān)鍵詞加上雙引號(半角,以下要加的其它符號同此),可以實(shí)現精確的查詢(xún),這種方法要求查詢(xún)結果要精確匹配,不包括演變形式。
例如在搜索引擎的文字框中輸入“電傳”,它就會(huì )返回網(wǎng)頁(yè)中有“電傳”這個(gè)關(guān)鍵字的網(wǎng)址,而不會(huì )返回諸如“電話(huà)傳真”之類(lèi)網(wǎng)頁(yè)。 三、使用加號(+) 在關(guān)鍵詞的前面使用加號,也就等于告訴搜索引擎該單詞必須出現在搜索結果中的網(wǎng)頁(yè)上,例如,在搜索引擎中輸入“+電腦+電話(huà)+傳真”就表示要查找的內容必須要同時(shí)包含“電腦、電話(huà)、傳真”這三個(gè)關(guān)鍵詞。 四、使用減號(-) 在關(guān)鍵詞的前面使用減號,也就意味著(zhù)在查詢(xún)結果中不能出現該關(guān)鍵詞,例如,在搜索引擎中輸入“電視臺-中央電視臺”,它就表示最后的查詢(xún)結果中一定不包含“中央電視臺”。 五、使用通配符(*和?) 通配符包括星號(*)和問(wèn)號(?),前者表示匹配的數量不受限制,后者匹配的字符數要受到限制,主要用在英文搜索引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。 六、使用布爾檢索 所謂布爾檢索,是指通過(guò)標準的布爾邏輯關(guān)系來(lái)表達關(guān)鍵詞與關(guān)鍵詞之間邏輯關(guān)系的一種查詢(xún)方法,這種查詢(xún)方法允許我們輸入多個(gè)關(guān)鍵詞,各個(gè)關(guān)鍵詞之間的關(guān)系可以用邏輯關(guān)系詞來(lái)表示。
and,稱(chēng)為邏輯“與”,用and進(jìn)行連接,表示它所連接的兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,例如,輸入“computer and book”,它要求查詢(xún)結果中必須同時(shí)包含computer和book; or,稱(chēng)為邏輯“或”,它表示所連接的兩個(gè)關(guān)鍵詞中任意一個(gè)出現在查詢(xún)結果中就可以,例如,輸入“computer or book”,就要求查詢(xún)結果中可以只有computer,或只有book,或同時(shí)包含computer和book; not,稱(chēng)為邏輯“非”,它表示所連接的兩個(gè)關(guān)鍵詞中應從第一個(gè)關(guān)鍵詞概念中排除第二個(gè)關(guān)鍵詞,例如輸入“automobile not car”,就要求查詢(xún)的結果中包含automobile(汽車(chē)),但同時(shí)不能包含car(小汽車(chē)); near,它表示兩個(gè)關(guān)鍵詞之間的詞距不能超過(guò)n個(gè)單詞。 在實(shí)際的使用過(guò)程中,你可以將各種邏輯關(guān)系綜合運用,靈活搭配,以便進(jìn)行更加復雜的查詢(xún)。 七、使用括號 當兩個(gè)關(guān)鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時(shí),就可以對這兩個(gè)詞加上圓括號。 八、使用元詞檢索 大多數搜索引擎都支持“元詞”(metawords)功能,依據這類(lèi)功能用戶(hù)把元詞放在關(guān)鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特征。
例如,你在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。在鍵入的關(guān)鍵詞后加上“domain:org”,就可以查到所有以org為后綴的網(wǎng)站。其他元詞還包括:image:用于檢索圖片,link:用于檢索鏈接到某個(gè)選定網(wǎng)站的頁(yè)面,URL:用于檢索地址中帶有某個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。 九、區分大小寫(xiě) 這是檢索英文信息時(shí)要注意的一個(gè)問(wèn)題,許多英文搜索引擎如谷歌(Google)可以讓用戶(hù)選擇是否要求區分關(guān)鍵詞的大小寫(xiě),這一功能對查詢(xún)專(zhuān)有名詞有很大的幫助,例如:Web專(zhuān)指萬(wàn)維網(wǎng)或環(huán)球網(wǎng),而web則表示蜘蛛網(wǎng)。 當然,以上列舉的搜索引擎查詢(xún)技巧只是一些最基礎的,但也是外貿業(yè)務(wù)員最需要了解的搜索引擎查詢(xún)方法。然而,想要獲取查詢(xún)到更直接、更有效的信息,外貿業(yè)務(wù)員就應該選擇好查詢(xún)用的關(guān)鍵詞或者關(guān)鍵詞組合。 查看全部
外貿業(yè)務(wù)員應該知道的搜索引擎查詢(xún)方法
所謂搜索引擎,是指根據一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統。從用戶(hù)的角度來(lái)講,搜索引擎就是幫助用戶(hù)方便地查詢(xún)網(wǎng)上信息的。而對于外貿業(yè)務(wù)員,那么搜索引擎就可以被用來(lái)尋找客戶(hù)、查詢(xún)客戶(hù)信息等。 但是如果外貿業(yè)務(wù)員不熟悉搜索引擎的話(huà),往往輸入搜索詞后出現了成百上千個(gè)查詢(xún)結果,而這些結果中并沒(méi)有多少想要的東西。面對著(zhù)一堆信息垃圾,可想而知這時(shí)業(yè)務(wù)員的心情該是如何的沮喪。不過(guò),這不是因為搜索引擎沒(méi)有用,而是由于外貿業(yè)務(wù)員沒(méi)能很好地駕馭它,沒(méi)有掌握它的使用技巧,才導致這樣的后果。 其實(shí),每個(gè)搜索引擎都有自己的查詢(xún)方法,只有熟練的掌握它才能運用自如。雖然,不同的搜索引擎提供的查詢(xún)方法不完全相同,但是一些通用的查詢(xún)方法,各個(gè)搜索引擎基本上都具有,下面就逐一介紹一些常用的查詢(xún)方法。 一、簡(jiǎn)單查詢(xún) 在搜索引擎中輸入關(guān)鍵詞,然后點(diǎn)擊“搜索”就行了,系統很快會(huì )返回查詢(xún)結果,這是最簡(jiǎn)單的查詢(xún)方法,使用方便,但是查詢(xún)的結果卻不準確,可能包含著(zhù)許多無(wú)用的信息。 二、使用雙引號("") 給要查詢(xún)的關(guān)鍵詞加上雙引號(半角,以下要加的其它符號同此),可以實(shí)現精確的查詢(xún),這種方法要求查詢(xún)結果要精確匹配,不包括演變形式。
例如在搜索引擎的文字框中輸入“電傳”,它就會(huì )返回網(wǎng)頁(yè)中有“電傳”這個(gè)關(guān)鍵字的網(wǎng)址,而不會(huì )返回諸如“電話(huà)傳真”之類(lèi)網(wǎng)頁(yè)。 三、使用加號(+) 在關(guān)鍵詞的前面使用加號,也就等于告訴搜索引擎該單詞必須出現在搜索結果中的網(wǎng)頁(yè)上,例如,在搜索引擎中輸入“+電腦+電話(huà)+傳真”就表示要查找的內容必須要同時(shí)包含“電腦、電話(huà)、傳真”這三個(gè)關(guān)鍵詞。 四、使用減號(-) 在關(guān)鍵詞的前面使用減號,也就意味著(zhù)在查詢(xún)結果中不能出現該關(guān)鍵詞,例如,在搜索引擎中輸入“電視臺-中央電視臺”,它就表示最后的查詢(xún)結果中一定不包含“中央電視臺”。 五、使用通配符(*和?) 通配符包括星號(*)和問(wèn)號(?),前者表示匹配的數量不受限制,后者匹配的字符數要受到限制,主要用在英文搜索引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。 六、使用布爾檢索 所謂布爾檢索,是指通過(guò)標準的布爾邏輯關(guān)系來(lái)表達關(guān)鍵詞與關(guān)鍵詞之間邏輯關(guān)系的一種查詢(xún)方法,這種查詢(xún)方法允許我們輸入多個(gè)關(guān)鍵詞,各個(gè)關(guān)鍵詞之間的關(guān)系可以用邏輯關(guān)系詞來(lái)表示。
and,稱(chēng)為邏輯“與”,用and進(jìn)行連接,表示它所連接的兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,例如,輸入“computer and book”,它要求查詢(xún)結果中必須同時(shí)包含computer和book; or,稱(chēng)為邏輯“或”,它表示所連接的兩個(gè)關(guān)鍵詞中任意一個(gè)出現在查詢(xún)結果中就可以,例如,輸入“computer or book”,就要求查詢(xún)結果中可以只有computer,或只有book,或同時(shí)包含computer和book; not,稱(chēng)為邏輯“非”,它表示所連接的兩個(gè)關(guān)鍵詞中應從第一個(gè)關(guān)鍵詞概念中排除第二個(gè)關(guān)鍵詞,例如輸入“automobile not car”,就要求查詢(xún)的結果中包含automobile(汽車(chē)),但同時(shí)不能包含car(小汽車(chē)); near,它表示兩個(gè)關(guān)鍵詞之間的詞距不能超過(guò)n個(gè)單詞。 在實(shí)際的使用過(guò)程中,你可以將各種邏輯關(guān)系綜合運用,靈活搭配,以便進(jìn)行更加復雜的查詢(xún)。 七、使用括號 當兩個(gè)關(guān)鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時(shí),就可以對這兩個(gè)詞加上圓括號。 八、使用元詞檢索 大多數搜索引擎都支持“元詞”(metawords)功能,依據這類(lèi)功能用戶(hù)把元詞放在關(guān)鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特征。
例如,你在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。在鍵入的關(guān)鍵詞后加上“domain:org”,就可以查到所有以org為后綴的網(wǎng)站。其他元詞還包括:image:用于檢索圖片,link:用于檢索鏈接到某個(gè)選定網(wǎng)站的頁(yè)面,URL:用于檢索地址中帶有某個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。 九、區分大小寫(xiě) 這是檢索英文信息時(shí)要注意的一個(gè)問(wèn)題,許多英文搜索引擎如谷歌(Google)可以讓用戶(hù)選擇是否要求區分關(guān)鍵詞的大小寫(xiě),這一功能對查詢(xún)專(zhuān)有名詞有很大的幫助,例如:Web專(zhuān)指萬(wàn)維網(wǎng)或環(huán)球網(wǎng),而web則表示蜘蛛網(wǎng)。 當然,以上列舉的搜索引擎查詢(xún)技巧只是一些最基礎的,但也是外貿業(yè)務(wù)員最需要了解的搜索引擎查詢(xún)方法。然而,想要獲取查詢(xún)到更直接、更有效的信息,外貿業(yè)務(wù)員就應該選擇好查詢(xún)用的關(guān)鍵詞或者關(guān)鍵詞組合。
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有哪些?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 532 次瀏覽 ? 2022-09-20 16:25
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有“詞向量法”“候選詞引導法”以及各種變形方法等。每種搜索引擎都有相對應的檢索策略,自然搜索引擎的檢索策略更加復雜,標準不一,其中包括網(wǎng)頁(yè)的檢索與分類(lèi)、候選詞檢索、關(guān)鍵詞分析等。
一、webtopic的檢索方法1.首先是常用的基于文檔的方法,
3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(獨熱圖)搜索,即可以通過(guò)比較兩個(gè)文檔找到topics,對獨熱圖進(jìn)行匹配,從而讓用戶(hù)找到最佳檢索結果。4.geohash,是去掉了所有相同點(diǎn)的余弦值來(lái)估計稀疏性。
5.winding搜索:對于從文檔中提取有關(guān)詞進(jìn)行匹配,利用hardn-grams對top-kkeywords進(jìn)行分類(lèi),從而找到下一個(gè)、甚至最可能的topkeywords。6.springerqualitycontrol:標注namematching。springerqualitycontrol是做有關(guān)詞進(jìn)行質(zhì)量判斷的,判斷用戶(hù)是否產(chǎn)生搜索的前后文,從而找到合理的搜索結果。7.repinding:是一種通過(guò)比較匹配詞和不匹配詞的關(guān)鍵詞在詞庫中的位置來(lái)進(jìn)行檢索的方法。
二、根據檢索規則進(jìn)行信息檢索策略8.邏輯回歸:可以對給定的文檔集合進(jìn)行用這個(gè)集合內的所有文檔來(lái)進(jìn)行建模預測,得到更精確的權重。9.線(xiàn)性代數:可以根據有效詞條詞的相似性建模,利用實(shí)驗數據進(jìn)行推斷。10.svd:densityfunction的變種,在做降維之前,先要把量級做分解,分解之后得到的density可以用來(lái)做densityfunction的推斷。
11.表征學(xué)習:基于傳統的word2vec得到更高的概率模型,來(lái)推斷出詞向量和詞符。12.bn:利用不同的標簽來(lái)選擇不同的label,減少方差。13.pki:詞向量的pca。14.引導提示:根據一些有特殊使用要求的詞匯,告訴用戶(hù)在哪些位置有它。
三、隱語(yǔ)義檢索方法15.copy+replace:基于詞的相似度匹配,
0)相似度較高;replace就是其后續文章和原文章相似度較高。
四、規則結合排序方法16.分詞,主流方法包括word2vec加中文分詞模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
1)詞頻分析(即詞量主要維度的文檔頻次)
2)相似性度量(主要包括:詞匯詞向量)
3)向量表示(主要有詞向量、詞向量xfilter、詞向量x+lda、lda-tf、相似矩陣等)
4)詞嵌入17.強化學(xué)習中的prediction_gradient方法18.針對每個(gè)候選詞,利用詞嵌入,利用特征向量, 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有哪些?
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法主要有“詞向量法”“候選詞引導法”以及各種變形方法等。每種搜索引擎都有相對應的檢索策略,自然搜索引擎的檢索策略更加復雜,標準不一,其中包括網(wǎng)頁(yè)的檢索與分類(lèi)、候選詞檢索、關(guān)鍵詞分析等。
一、webtopic的檢索方法1.首先是常用的基于文檔的方法,
3、neo2vec,d3等等2.其次是information-basedsearch的方法,比如bilstm或者gru+highwaynetworks等等。3.randomwalk(獨熱圖)搜索,即可以通過(guò)比較兩個(gè)文檔找到topics,對獨熱圖進(jìn)行匹配,從而讓用戶(hù)找到最佳檢索結果。4.geohash,是去掉了所有相同點(diǎn)的余弦值來(lái)估計稀疏性。
5.winding搜索:對于從文檔中提取有關(guān)詞進(jìn)行匹配,利用hardn-grams對top-kkeywords進(jìn)行分類(lèi),從而找到下一個(gè)、甚至最可能的topkeywords。6.springerqualitycontrol:標注namematching。springerqualitycontrol是做有關(guān)詞進(jìn)行質(zhì)量判斷的,判斷用戶(hù)是否產(chǎn)生搜索的前后文,從而找到合理的搜索結果。7.repinding:是一種通過(guò)比較匹配詞和不匹配詞的關(guān)鍵詞在詞庫中的位置來(lái)進(jìn)行檢索的方法。

二、根據檢索規則進(jìn)行信息檢索策略8.邏輯回歸:可以對給定的文檔集合進(jìn)行用這個(gè)集合內的所有文檔來(lái)進(jìn)行建模預測,得到更精確的權重。9.線(xiàn)性代數:可以根據有效詞條詞的相似性建模,利用實(shí)驗數據進(jìn)行推斷。10.svd:densityfunction的變種,在做降維之前,先要把量級做分解,分解之后得到的density可以用來(lái)做densityfunction的推斷。
11.表征學(xué)習:基于傳統的word2vec得到更高的概率模型,來(lái)推斷出詞向量和詞符。12.bn:利用不同的標簽來(lái)選擇不同的label,減少方差。13.pki:詞向量的pca。14.引導提示:根據一些有特殊使用要求的詞匯,告訴用戶(hù)在哪些位置有它。
三、隱語(yǔ)義檢索方法15.copy+replace:基于詞的相似度匹配,
0)相似度較高;replace就是其后續文章和原文章相似度較高。

四、規則結合排序方法16.分詞,主流方法包括word2vec加中文分詞模型、bert/gpt/crf、lda、wordembeddings+tf-idf-crf等等,
1)詞頻分析(即詞量主要維度的文檔頻次)
2)相似性度量(主要包括:詞匯詞向量)
3)向量表示(主要有詞向量、詞向量xfilter、詞向量x+lda、lda-tf、相似矩陣等)
4)詞嵌入17.強化學(xué)習中的prediction_gradient方法18.針對每個(gè)候選詞,利用詞嵌入,利用特征向量,
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比、對比
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2022-09-19 23:05
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比搜索引擎進(jìn)行檢索優(yōu)化的方法
1)通過(guò)相關(guān)關(guān)鍵詞建立關(guān)鍵詞樹(shù),得到樹(shù)上節點(diǎn),每個(gè)節點(diǎn)上設置名稱(chēng)、描述以及域名,用于關(guān)鍵詞分類(lèi)。
2)對最近發(fā)現的關(guān)鍵詞進(jìn)行編號,當關(guān)鍵詞被查詢(xún)時(shí),查詢(xún)編號為最近發(fā)現的關(guān)鍵詞。
3)優(yōu)化關(guān)鍵詞樹(shù)。利用高亮規則和強制關(guān)鍵詞擴展(即自動(dòng)詞或者紅框元素)實(shí)現關(guān)鍵詞的高亮和自動(dòng)擴展。
4)關(guān)鍵詞在時(shí)間地點(diǎn)上的相關(guān)性選擇。如:設置timetask對關(guān)鍵詞提高查詢(xún)的相關(guān)性。
5)檢索高頻、熱門(mén)、常用關(guān)鍵詞,提高關(guān)鍵詞檢索的效率。
6)利用強制轉義、超鏈、重復、弱鏈、引用文本等提高關(guān)鍵詞檢索的效率。
7)聚類(lèi)分析,并用點(diǎn)分類(lèi)、區域聚類(lèi)等方法對檢索命中的關(guān)鍵詞進(jìn)行分類(lèi)。
簡(jiǎn)單說(shuō)就是如何找到優(yōu)質(zhì)的內容。1.簡(jiǎn)單檢索關(guān)鍵詞2.過(guò)濾掉冗余的內容,抓取高質(zhì)量,優(yōu)質(zhì)的內容3.搜索指定的或特定的關(guān)鍵詞。以上只是提供一個(gè)簡(jiǎn)單的思路。具體要學(xué)會(huì )如何從海量數據中去分析篩選出來(lái)你想要的內容,然后再學(xué)習如何分析數據,匹配內容,篩選優(yōu)質(zhì)的內容,抓取高質(zhì)量?jì)热?。再通過(guò)關(guān)鍵詞的布局,搜索方式的運用,排版等細節上去優(yōu)化,提高檢索效率。
是只按相關(guān)排序,還是通過(guò)分詞匹配到想要的文章?有人這么做。但是這不是優(yōu)化方法,如果只按相關(guān)排序,直接刪掉相關(guān)內容就行了,然后找到需要的文章。不相關(guān)怎么辦?如果是需要本專(zhuān)業(yè)方面的文章,可以看看某本書(shū)吧,那種專(zhuān)業(yè)性比較強的。就按相關(guān)篩選的方法篩選。如果是非相關(guān)的書(shū),可以用bigdatatoolkit直接搜索或者需要的文章搜索。 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比、對比
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法:對比搜索引擎進(jìn)行檢索優(yōu)化的方法
1)通過(guò)相關(guān)關(guān)鍵詞建立關(guān)鍵詞樹(shù),得到樹(shù)上節點(diǎn),每個(gè)節點(diǎn)上設置名稱(chēng)、描述以及域名,用于關(guān)鍵詞分類(lèi)。
2)對最近發(fā)現的關(guān)鍵詞進(jìn)行編號,當關(guān)鍵詞被查詢(xún)時(shí),查詢(xún)編號為最近發(fā)現的關(guān)鍵詞。

3)優(yōu)化關(guān)鍵詞樹(shù)。利用高亮規則和強制關(guān)鍵詞擴展(即自動(dòng)詞或者紅框元素)實(shí)現關(guān)鍵詞的高亮和自動(dòng)擴展。
4)關(guān)鍵詞在時(shí)間地點(diǎn)上的相關(guān)性選擇。如:設置timetask對關(guān)鍵詞提高查詢(xún)的相關(guān)性。
5)檢索高頻、熱門(mén)、常用關(guān)鍵詞,提高關(guān)鍵詞檢索的效率。

6)利用強制轉義、超鏈、重復、弱鏈、引用文本等提高關(guān)鍵詞檢索的效率。
7)聚類(lèi)分析,并用點(diǎn)分類(lèi)、區域聚類(lèi)等方法對檢索命中的關(guān)鍵詞進(jìn)行分類(lèi)。
簡(jiǎn)單說(shuō)就是如何找到優(yōu)質(zhì)的內容。1.簡(jiǎn)單檢索關(guān)鍵詞2.過(guò)濾掉冗余的內容,抓取高質(zhì)量,優(yōu)質(zhì)的內容3.搜索指定的或特定的關(guān)鍵詞。以上只是提供一個(gè)簡(jiǎn)單的思路。具體要學(xué)會(huì )如何從海量數據中去分析篩選出來(lái)你想要的內容,然后再學(xué)習如何分析數據,匹配內容,篩選優(yōu)質(zhì)的內容,抓取高質(zhì)量?jì)热?。再通過(guò)關(guān)鍵詞的布局,搜索方式的運用,排版等細節上去優(yōu)化,提高檢索效率。
是只按相關(guān)排序,還是通過(guò)分詞匹配到想要的文章?有人這么做。但是這不是優(yōu)化方法,如果只按相關(guān)排序,直接刪掉相關(guān)內容就行了,然后找到需要的文章。不相關(guān)怎么辦?如果是需要本專(zhuān)業(yè)方面的文章,可以看看某本書(shū)吧,那種專(zhuān)業(yè)性比較強的。就按相關(guān)篩選的方法篩選。如果是非相關(guān)的書(shū),可以用bigdatatoolkit直接搜索或者需要的文章搜索。
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索算法的性能評估
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 181 次瀏覽 ? 2022-09-15 22:01
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索引擎的性能評估
1、最高速度搜索引擎查詢(xún)的時(shí)效性是搜索算法中最重要的一個(gè)評價(jià)指標。如何最高速度?一種辦法是追蹤歷史數據找出最可能有搜索排序結果的用戶(hù)行為軌跡,然后進(jìn)行定位。另一種方法是時(shí)間轉換方法,找出每分鐘內發(fā)生的次數最多的行為,然后聚類(lèi)分析,然后以時(shí)間順序進(jìn)行排序。
2、準確性搜索引擎可以將相關(guān)性指標(如相似度,匹配性等)與各個(gè)用戶(hù)行為因素進(jìn)行匹配,構成一個(gè)從1到n的排序規則。通過(guò)排序規則的設計能夠減小用戶(hù)搜索查詢(xún)、詞之間的關(guān)聯(lián)度,從而減少搜索結果庫中大量無(wú)效搜索,有利于優(yōu)化搜索結果,獲得更多高質(zhì)量的搜索結果。
3、支持率搜索引擎頁(yè)面每次下拉時(shí),包含什么條目最多,這將會(huì )影響用戶(hù)對頁(yè)面是否有用的點(diǎn)擊。為了減少用戶(hù)點(diǎn)擊率,搜索引擎需要將下拉包含的詞匯清空,如將多個(gè)詞匯分開(kāi)顯示,或者將展示的詞匯只限于主要使用的詞匯范圍內。
4、頻繁搜索搜索與相關(guān)性并不是相互獨立的,每個(gè)用戶(hù)在多次搜索的過(guò)程中都可能需要使用搜索所搜索的內容。因此一個(gè)正確的頻繁搜索策略至關(guān)重要。引擎設計者通常會(huì )將搜索結果排序分為各個(gè)頻繁搜索區間,根據用戶(hù)點(diǎn)擊的各個(gè)頻繁搜索區間的用戶(hù)數目(包括總點(diǎn)擊次數)計算下拉頻繁搜索的幾率。
5、網(wǎng)頁(yè)分布有關(guān)搜索引擎整體設計流程的研究的文章通常認為在數據流程中找到相關(guān)性最高的網(wǎng)頁(yè)相對較難,所以做相關(guān)性檢索通常會(huì )為網(wǎng)頁(yè)分布找到更有效的匹配方式。
6、網(wǎng)頁(yè)排序網(wǎng)頁(yè)排序即對網(wǎng)頁(yè)進(jìn)行排序,主要目的在于影響用戶(hù)下一次點(diǎn)擊的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的網(wǎng)頁(yè)排序策略。
7、用戶(hù)群體美國教育部搜索引擎中心發(fā)布了一份較大的用戶(hù)研究報告,稱(chēng)14%的人搜索、瀏覽、發(fā)送電子郵件,有28%的人觀(guān)看短視頻,在互聯(lián)網(wǎng)中訪(fǎng)問(wèn)了超過(guò)一百萬(wàn)個(gè)產(chǎn)品或服務(wù)。隨著(zhù)用戶(hù)在互聯(lián)網(wǎng)上的行為越來(lái)越多地發(fā)生變化,無(wú)論是搜索還是瀏覽網(wǎng)頁(yè),都在發(fā)生著(zhù)實(shí)際上的網(wǎng)絡(luò )行為,一個(gè)基于用戶(hù)數據的優(yōu)化搜索引擎能夠幫助搜索引擎的核心指標提高4~8個(gè)百分點(diǎn)。
8、搜索ip地址、時(shí)間、在線(xiàn)情況一個(gè)基于搜索的搜索引擎能夠幫助用戶(hù)優(yōu)化搜索查詢(xún)、帶來(lái)更多有價(jià)值的查詢(xún)、瀏覽更多的網(wǎng)頁(yè),甚至與已有網(wǎng)站進(jìn)行合作,發(fā)展具有互補性的服務(wù),并且在使用搜索引擎做行業(yè)搜索時(shí)使用一些特殊的搜索方法來(lái)找到與用戶(hù)搜索習慣、行業(yè)習慣、產(chǎn)品相關(guān)的數據。
9、相關(guān)性搜索查詢(xún)能夠優(yōu)化用戶(hù)在搜索引擎查詢(xún)頁(yè)的排序嗎?還是需要用戶(hù)首先在搜索引擎中查詢(xún)查詢(xún)之后, 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索算法的性能評估
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法基于搜索引擎的性能評估
1、最高速度搜索引擎查詢(xún)的時(shí)效性是搜索算法中最重要的一個(gè)評價(jià)指標。如何最高速度?一種辦法是追蹤歷史數據找出最可能有搜索排序結果的用戶(hù)行為軌跡,然后進(jìn)行定位。另一種方法是時(shí)間轉換方法,找出每分鐘內發(fā)生的次數最多的行為,然后聚類(lèi)分析,然后以時(shí)間順序進(jìn)行排序。
2、準確性搜索引擎可以將相關(guān)性指標(如相似度,匹配性等)與各個(gè)用戶(hù)行為因素進(jìn)行匹配,構成一個(gè)從1到n的排序規則。通過(guò)排序規則的設計能夠減小用戶(hù)搜索查詢(xún)、詞之間的關(guān)聯(lián)度,從而減少搜索結果庫中大量無(wú)效搜索,有利于優(yōu)化搜索結果,獲得更多高質(zhì)量的搜索結果。

3、支持率搜索引擎頁(yè)面每次下拉時(shí),包含什么條目最多,這將會(huì )影響用戶(hù)對頁(yè)面是否有用的點(diǎn)擊。為了減少用戶(hù)點(diǎn)擊率,搜索引擎需要將下拉包含的詞匯清空,如將多個(gè)詞匯分開(kāi)顯示,或者將展示的詞匯只限于主要使用的詞匯范圍內。
4、頻繁搜索搜索與相關(guān)性并不是相互獨立的,每個(gè)用戶(hù)在多次搜索的過(guò)程中都可能需要使用搜索所搜索的內容。因此一個(gè)正確的頻繁搜索策略至關(guān)重要。引擎設計者通常會(huì )將搜索結果排序分為各個(gè)頻繁搜索區間,根據用戶(hù)點(diǎn)擊的各個(gè)頻繁搜索區間的用戶(hù)數目(包括總點(diǎn)擊次數)計算下拉頻繁搜索的幾率。
5、網(wǎng)頁(yè)分布有關(guān)搜索引擎整體設計流程的研究的文章通常認為在數據流程中找到相關(guān)性最高的網(wǎng)頁(yè)相對較難,所以做相關(guān)性檢索通常會(huì )為網(wǎng)頁(yè)分布找到更有效的匹配方式。

6、網(wǎng)頁(yè)排序網(wǎng)頁(yè)排序即對網(wǎng)頁(yè)進(jìn)行排序,主要目的在于影響用戶(hù)下一次點(diǎn)擊的可能性,包括首字首句和尾字首句,其中首字首句和尾字首句在搜索引擎中是常用的網(wǎng)頁(yè)排序策略。
7、用戶(hù)群體美國教育部搜索引擎中心發(fā)布了一份較大的用戶(hù)研究報告,稱(chēng)14%的人搜索、瀏覽、發(fā)送電子郵件,有28%的人觀(guān)看短視頻,在互聯(lián)網(wǎng)中訪(fǎng)問(wèn)了超過(guò)一百萬(wàn)個(gè)產(chǎn)品或服務(wù)。隨著(zhù)用戶(hù)在互聯(lián)網(wǎng)上的行為越來(lái)越多地發(fā)生變化,無(wú)論是搜索還是瀏覽網(wǎng)頁(yè),都在發(fā)生著(zhù)實(shí)際上的網(wǎng)絡(luò )行為,一個(gè)基于用戶(hù)數據的優(yōu)化搜索引擎能夠幫助搜索引擎的核心指標提高4~8個(gè)百分點(diǎn)。
8、搜索ip地址、時(shí)間、在線(xiàn)情況一個(gè)基于搜索的搜索引擎能夠幫助用戶(hù)優(yōu)化搜索查詢(xún)、帶來(lái)更多有價(jià)值的查詢(xún)、瀏覽更多的網(wǎng)頁(yè),甚至與已有網(wǎng)站進(jìn)行合作,發(fā)展具有互補性的服務(wù),并且在使用搜索引擎做行業(yè)搜索時(shí)使用一些特殊的搜索方法來(lái)找到與用戶(hù)搜索習慣、行業(yè)習慣、產(chǎn)品相關(guān)的數據。
9、相關(guān)性搜索查詢(xún)能夠優(yōu)化用戶(hù)在搜索引擎查詢(xún)頁(yè)的排序嗎?還是需要用戶(hù)首先在搜索引擎中查詢(xún)查詢(xún)之后,
sql 語(yǔ)句優(yōu)化的30種方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2022-09-03 21:08
大家好,我是頂級架構師。
1.對查詢(xún)進(jìn)行優(yōu)化,應盡量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。2.應盡量避免在 where 子句中使用!=或操作符,否則將引擎放棄使用索引而進(jìn)行全表掃描。3.應盡量避免在 where 子句中對字段進(jìn)行 null 值判斷,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num?is?null?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以在num上設置默認值0,確保表中num列沒(méi)有null值,然后這樣查詢(xún):
select?id?from?t?where?num=0?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
4.應盡量避免在 where 子句中使用 or 來(lái)連接條件,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num=10?or?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以這樣查詢(xún):
select?id?from?t?where?num=10?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union?all?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
5.下面的查詢(xún)也將導致全表掃描:
select?id?from?t?where?name?like?'%abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
若要提高效率,可以考慮全文檢索。
6.in 和 not in 也要慎用,否則會(huì )導致全表掃描,如:
select?id?from?t?where?num?in(1,2,3)?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
對于連續的數值,能用 between 就不要用 in 了:
select?id?from?t?where?num?between?1?and?3?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
7.如果在 where 子句中使用參數,也會(huì )導致全表掃描。因為SQL只有在運行時(shí)才會(huì )解析局部變量,但優(yōu)化程序不能將訪(fǎng)問(wèn)計劃的選擇推遲到運行時(shí);它必須在編譯時(shí)進(jìn)行選擇。然而,如果在編譯時(shí)建立訪(fǎng)問(wèn)計劃,變量的值還是未知的,因而無(wú)法作為索引選擇的輸入項。如下面語(yǔ)句將進(jìn)行全表掃描:
select?id?from?t?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
可以改為強制查詢(xún)使用索引:
select?id?from?t?with(index(索引名))?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
8.應盡量避免在 where 子句中對字段進(jìn)行表達式操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?num/2=100?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
select?id?from?t?where?num=100*2?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
9.應盡量避免在where子句中對字段進(jìn)行函數操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?substring(name,1,3)='abc'--name以abc開(kāi)頭的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
<p>select?id?from?t?where?name?like?'abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?createdate>='2005-11-30'?and?createdate 查看全部
sql 語(yǔ)句優(yōu)化的30種方法
大家好,我是頂級架構師。
1.對查詢(xún)進(jìn)行優(yōu)化,應盡量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。2.應盡量避免在 where 子句中使用!=或操作符,否則將引擎放棄使用索引而進(jìn)行全表掃描。3.應盡量避免在 where 子句中對字段進(jìn)行 null 值判斷,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num?is?null?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以在num上設置默認值0,確保表中num列沒(méi)有null值,然后這樣查詢(xún):
select?id?from?t?where?num=0?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
4.應盡量避免在 where 子句中使用 or 來(lái)連接條件,否則將導致引擎放棄使用索引而進(jìn)行全表掃描,如:
select?id?from?t?where?num=10?or?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;visibility: visible;font-size: 15px;line-height: 18px;" />
可以這樣查詢(xún):
select?id?from?t?where?num=10?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />union?all?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?num=20?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
5.下面的查詢(xún)也將導致全表掃描:
select?id?from?t?where?name?like?'%abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
若要提高效率,可以考慮全文檢索。
6.in 和 not in 也要慎用,否則會(huì )導致全表掃描,如:
select?id?from?t?where?num?in(1,2,3)?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
對于連續的數值,能用 between 就不要用 in 了:

select?id?from?t?where?num?between?1?and?3?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
7.如果在 where 子句中使用參數,也會(huì )導致全表掃描。因為SQL只有在運行時(shí)才會(huì )解析局部變量,但優(yōu)化程序不能將訪(fǎng)問(wèn)計劃的選擇推遲到運行時(shí);它必須在編譯時(shí)進(jìn)行選擇。然而,如果在編譯時(shí)建立訪(fǎng)問(wèn)計劃,變量的值還是未知的,因而無(wú)法作為索引選擇的輸入項。如下面語(yǔ)句將進(jìn)行全表掃描:
select?id?from?t?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
可以改為強制查詢(xún)使用索引:
select?id?from?t?with(index(索引名))?where?num=@num?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
8.應盡量避免在 where 子句中對字段進(jìn)行表達式操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?num/2=100?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
select?id?from?t?where?num=100*2?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
9.應盡量避免在where子句中對字段進(jìn)行函數操作,這將導致引擎放棄使用索引而進(jìn)行全表掃描。如:
select?id?from?t?where?substring(name,1,3)='abc'--name以abc開(kāi)頭的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?datediff(day,createdate,'2005-11-30')=0--'2005-11-30'生成的id?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />
應改為:
<p>select?id?from?t?where?name?like?'abc%'?<br mp-original-font-size="15" mp-original-line-height="18" style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;word-wrap: break-word !important;font-size: 15px;line-height: 18px;" />select?id?from?t?where?createdate>='2005-11-30'?and?createdate
網(wǎng)站推廣主要有哪些方法?網(wǎng)站推廣有哪些注意事項?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-08-02 04:49
網(wǎng)站推廣是網(wǎng)絡(luò )營(yíng)銷(xiāo)推廣中非常重要的一個(gè)組成部分,如果企業(yè)決定做網(wǎng)絡(luò )營(yíng)銷(xiāo)的話(huà),那網(wǎng)站推廣也是繞不開(kāi)的,本文就帶大家一起來(lái)了解一下網(wǎng)站推廣主要有哪些方法?
一、網(wǎng)站推廣主要有哪些方法?
1、搜索引擎推廣方法
搜索引擎推廣是指利用搜索引擎、分類(lèi)目錄等具有在線(xiàn)檢索信息功能的網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方法。
2、電子郵件推廣方法
以電子郵件為主要的網(wǎng)站推廣手段,常用的方法包括電子刊物、會(huì )員通訊、專(zhuān)業(yè)服務(wù)商的電子郵件廣告等。
3、資源合作推廣方法
通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,在具有類(lèi)似目標網(wǎng)站之間實(shí)現互相推廣的目的,其中最常用的資源合作方式為網(wǎng)站鏈接策略,利用合作伙伴之間網(wǎng)站訪(fǎng)問(wèn)量資源合作互為推廣。
4、信息發(fā)布推廣方法
將有關(guān)的網(wǎng)站推廣信息發(fā)布在其他潛在用戶(hù)可能訪(fǎng)問(wèn)的網(wǎng)站上,利用用戶(hù)在這些網(wǎng)站獲取信息的機會(huì )實(shí)現網(wǎng)站推廣的目的,適用于這些信息發(fā)布的網(wǎng)站包括在線(xiàn)黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等。
5、網(wǎng)絡(luò )廣告推廣方法
網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌、產(chǎn)品促銷(xiāo)、網(wǎng)站推廣等方面均有明顯作用。網(wǎng)絡(luò )廣告的常見(jiàn)形式包括:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助式廣告、Email廣告等。
二、網(wǎng)站推廣有哪些注意事項?
1、不要把導航做成圖片鏈接
因為搜索引擎是一個(gè)大型數據庫,而不是一個(gè)圖片庫,搜索引擎首頁(yè)搜索引擎到的是你的標題,然后接著(zhù)才通過(guò)你的導航系統搜索到你網(wǎng)站的其他內頁(yè)。
2、首頁(yè)不能為了美觀(guān)而大量使用圖片
所有的搜索引擎都喜歡有一個(gè)清晰的結構,而不喜歡把網(wǎng)站做成一張皮,讓搜索引擎分不清你的重點(diǎn)所在。因此,一個(gè)清晰地網(wǎng)站結構和連接結構對于蜘蛛爬行和收錄是非常重要的。
3、外鏈平臺的選擇及發(fā)布
發(fā)布鏈的作用是為了給網(wǎng)站導流、增加網(wǎng)站的曝光度。有些人為了圖完成任務(wù)、短期內見(jiàn)效果,就一味的、大量的發(fā)布外鏈文章(在文章中添加目標網(wǎng)站的URL鏈接和關(guān)鍵詞的堆砌)等等,這個(gè)會(huì )適得其反,嚴重會(huì )影響網(wǎng)站的排名和權重。因此,外鏈文章是一個(gè)長(cháng)期的積累過(guò)程,不要求快、求量,還是需要有個(gè)度。
三、網(wǎng)站推廣有哪些好處?
1、提高企業(yè)的知名度
大多企業(yè)都是小型的企業(yè),沒(méi)有什么知名度,所以要結合互聯(lián)網(wǎng)網(wǎng)絡(luò )推廣進(jìn)行對企業(yè)的品牌提升的同時(shí)把企業(yè)的知名度提升上去,讓更多的人群知道。
2、增加用戶(hù)粘度
客戶(hù)購買(mǎi)企業(yè)的產(chǎn)品,對產(chǎn)品的質(zhì)量等方面都認可,就會(huì )認準企業(yè)的這個(gè)產(chǎn)品,所以客戶(hù)會(huì )對企業(yè)產(chǎn)生一種依賴(lài)性同時(shí)粘度也增加了不少。
3、長(cháng)期的穩定性
企業(yè)通過(guò)長(cháng)期的推廣和網(wǎng)絡(luò )營(yíng)銷(xiāo),會(huì )使企業(yè)的網(wǎng)站穩定性增加,網(wǎng)絡(luò )推廣不是短期就能出現效果的是需要通過(guò)長(cháng)期的維護和優(yōu)化進(jìn)行運行才能體現的。
4、增加產(chǎn)品的銷(xiāo)售
網(wǎng)站進(jìn)行維護和優(yōu)化后能達到銷(xiāo)售產(chǎn)品就是網(wǎng)絡(luò )推廣的最終目的。呈現出企業(yè)網(wǎng)絡(luò )雙共贏(yíng)的局面。
可以聯(lián)系小編
百度廣告前三,包月推廣,當天上線(xiàn),不限點(diǎn)擊費,1500元/月,2800元/一季度,需要的請聯(lián)系小編 查看全部
網(wǎng)站推廣主要有哪些方法?網(wǎng)站推廣有哪些注意事項?
網(wǎng)站推廣是網(wǎng)絡(luò )營(yíng)銷(xiāo)推廣中非常重要的一個(gè)組成部分,如果企業(yè)決定做網(wǎng)絡(luò )營(yíng)銷(xiāo)的話(huà),那網(wǎng)站推廣也是繞不開(kāi)的,本文就帶大家一起來(lái)了解一下網(wǎng)站推廣主要有哪些方法?
一、網(wǎng)站推廣主要有哪些方法?
1、搜索引擎推廣方法
搜索引擎推廣是指利用搜索引擎、分類(lèi)目錄等具有在線(xiàn)檢索信息功能的網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方法。
2、電子郵件推廣方法
以電子郵件為主要的網(wǎng)站推廣手段,常用的方法包括電子刊物、會(huì )員通訊、專(zhuān)業(yè)服務(wù)商的電子郵件廣告等。
3、資源合作推廣方法
通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,在具有類(lèi)似目標網(wǎng)站之間實(shí)現互相推廣的目的,其中最常用的資源合作方式為網(wǎng)站鏈接策略,利用合作伙伴之間網(wǎng)站訪(fǎng)問(wèn)量資源合作互為推廣。
4、信息發(fā)布推廣方法
將有關(guān)的網(wǎng)站推廣信息發(fā)布在其他潛在用戶(hù)可能訪(fǎng)問(wèn)的網(wǎng)站上,利用用戶(hù)在這些網(wǎng)站獲取信息的機會(huì )實(shí)現網(wǎng)站推廣的目的,適用于這些信息發(fā)布的網(wǎng)站包括在線(xiàn)黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等。

5、網(wǎng)絡(luò )廣告推廣方法
網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌、產(chǎn)品促銷(xiāo)、網(wǎng)站推廣等方面均有明顯作用。網(wǎng)絡(luò )廣告的常見(jiàn)形式包括:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助式廣告、Email廣告等。
二、網(wǎng)站推廣有哪些注意事項?
1、不要把導航做成圖片鏈接
因為搜索引擎是一個(gè)大型數據庫,而不是一個(gè)圖片庫,搜索引擎首頁(yè)搜索引擎到的是你的標題,然后接著(zhù)才通過(guò)你的導航系統搜索到你網(wǎng)站的其他內頁(yè)。
2、首頁(yè)不能為了美觀(guān)而大量使用圖片
所有的搜索引擎都喜歡有一個(gè)清晰的結構,而不喜歡把網(wǎng)站做成一張皮,讓搜索引擎分不清你的重點(diǎn)所在。因此,一個(gè)清晰地網(wǎng)站結構和連接結構對于蜘蛛爬行和收錄是非常重要的。
3、外鏈平臺的選擇及發(fā)布
發(fā)布鏈的作用是為了給網(wǎng)站導流、增加網(wǎng)站的曝光度。有些人為了圖完成任務(wù)、短期內見(jiàn)效果,就一味的、大量的發(fā)布外鏈文章(在文章中添加目標網(wǎng)站的URL鏈接和關(guān)鍵詞的堆砌)等等,這個(gè)會(huì )適得其反,嚴重會(huì )影響網(wǎng)站的排名和權重。因此,外鏈文章是一個(gè)長(cháng)期的積累過(guò)程,不要求快、求量,還是需要有個(gè)度。

三、網(wǎng)站推廣有哪些好處?
1、提高企業(yè)的知名度
大多企業(yè)都是小型的企業(yè),沒(méi)有什么知名度,所以要結合互聯(lián)網(wǎng)網(wǎng)絡(luò )推廣進(jìn)行對企業(yè)的品牌提升的同時(shí)把企業(yè)的知名度提升上去,讓更多的人群知道。
2、增加用戶(hù)粘度
客戶(hù)購買(mǎi)企業(yè)的產(chǎn)品,對產(chǎn)品的質(zhì)量等方面都認可,就會(huì )認準企業(yè)的這個(gè)產(chǎn)品,所以客戶(hù)會(huì )對企業(yè)產(chǎn)生一種依賴(lài)性同時(shí)粘度也增加了不少。
3、長(cháng)期的穩定性
企業(yè)通過(guò)長(cháng)期的推廣和網(wǎng)絡(luò )營(yíng)銷(xiāo),會(huì )使企業(yè)的網(wǎng)站穩定性增加,網(wǎng)絡(luò )推廣不是短期就能出現效果的是需要通過(guò)長(cháng)期的維護和優(yōu)化進(jìn)行運行才能體現的。
4、增加產(chǎn)品的銷(xiāo)售
網(wǎng)站進(jìn)行維護和優(yōu)化后能達到銷(xiāo)售產(chǎn)品就是網(wǎng)絡(luò )推廣的最終目的。呈現出企業(yè)網(wǎng)絡(luò )雙共贏(yíng)的局面。
可以聯(lián)系小編
百度廣告前三,包月推廣,當天上線(xiàn),不限點(diǎn)擊費,1500元/月,2800元/一季度,需要的請聯(lián)系小編
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-樂(lè )題庫
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 123 次瀏覽 ? 2022-07-31 06:01
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.檢索詞的創(chuàng )造。不斷擴充檢索詞庫,廣泛采用長(cháng)尾關(guān)鍵詞的詞頻詞庫,將在檢索詞庫內的搜索長(cháng)尾關(guān)鍵詞置于檢索詞條前面,用于制造檢索詞條。將搜索長(cháng)尾關(guān)鍵詞過(guò)濾成用于檢索詞條的關(guān)鍵詞2.關(guān)鍵詞的排列組合,用分詞技術(shù)(主要是漢語(yǔ)語(yǔ)料庫詞庫),形成智能詞庫,用詞頻分詞把檢索內容進(jìn)行分割,分成多個(gè)組合查詢(xún),每組查詢(xún)內再查詢(xún),形成一個(gè)查詢(xún)樹(shù)。
這樣檢索詞可以形成一個(gè)樹(shù)狀結構3.檢索詞與關(guān)鍵詞的廣泛匹配4.提高檢索詞的優(yōu)先級:與關(guān)鍵詞匹配的多個(gè)檢索詞要權重相等,從而使檢索的字詞密度提高。5.檢索結果不斷進(jìn)行存儲,形成索引庫,形成后續檢索6.提供索引詞索引方式:利用兩個(gè)或多個(gè)表的extra_info()方法提供檢索詞的索引方式選擇。
檢索排序就是檢索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改變的。其中key字段對序號(in-nametable的middle)和orderby長(cháng)度有限制,value字段則是最多5個(gè)(取決于middle和valuelength的相同部分)。
主要因為,如果一個(gè)字段的排序方式不是按照字典里的次序排序,那么我們就不能繼續利用這個(gè)字段了。舉個(gè)栗子:比如adj.的英文是advanced(達到了高級)。這個(gè)advanced既可以用字典表示,也可以用頻數表示,還可以用權重表示??傊写罅康淖龇?。再舉個(gè)栗子:比如["some","somea","more","morebs"]的英文組合是someasome(達到了高級),有些情況下somemorearesome(達到了高級).此時(shí)我們也可以將這個(gè)字段作為索引的一部分來(lái)操作。
此時(shí)就要確定,some也好,somea也好,more也好,他們分別表示的是誰(shuí),而這些我們是不可能用undefined來(lái)取代的。 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-樂(lè )題庫
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.檢索詞的創(chuàng )造。不斷擴充檢索詞庫,廣泛采用長(cháng)尾關(guān)鍵詞的詞頻詞庫,將在檢索詞庫內的搜索長(cháng)尾關(guān)鍵詞置于檢索詞條前面,用于制造檢索詞條。將搜索長(cháng)尾關(guān)鍵詞過(guò)濾成用于檢索詞條的關(guān)鍵詞2.關(guān)鍵詞的排列組合,用分詞技術(shù)(主要是漢語(yǔ)語(yǔ)料庫詞庫),形成智能詞庫,用詞頻分詞把檢索內容進(jìn)行分割,分成多個(gè)組合查詢(xún),每組查詢(xún)內再查詢(xún),形成一個(gè)查詢(xún)樹(shù)。

這樣檢索詞可以形成一個(gè)樹(shù)狀結構3.檢索詞與關(guān)鍵詞的廣泛匹配4.提高檢索詞的優(yōu)先級:與關(guān)鍵詞匹配的多個(gè)檢索詞要權重相等,從而使檢索的字詞密度提高。5.檢索結果不斷進(jìn)行存儲,形成索引庫,形成后續檢索6.提供索引詞索引方式:利用兩個(gè)或多個(gè)表的extra_info()方法提供檢索詞的索引方式選擇。
檢索排序就是檢索字段的排序。比如in-namesearchelement,有key-value表,key字段和value字段的位置都是不可改變的。其中key字段對序號(in-nametable的middle)和orderby長(cháng)度有限制,value字段則是最多5個(gè)(取決于middle和valuelength的相同部分)。

主要因為,如果一個(gè)字段的排序方式不是按照字典里的次序排序,那么我們就不能繼續利用這個(gè)字段了。舉個(gè)栗子:比如adj.的英文是advanced(達到了高級)。這個(gè)advanced既可以用字典表示,也可以用頻數表示,還可以用權重表示??傊写罅康淖龇?。再舉個(gè)栗子:比如["some","somea","more","morebs"]的英文組合是someasome(達到了高級),有些情況下somemorearesome(達到了高級).此時(shí)我們也可以將這個(gè)字段作為索引的一部分來(lái)操作。
此時(shí)就要確定,some也好,somea也好,more也好,他們分別表示的是誰(shuí),而這些我們是不可能用undefined來(lái)取代的。
科學(xué) · 新書(shū) | 《信息檢索與利用(第四版)》正式出版
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-06-24 02:16
信息化時(shí)代,瞬息萬(wàn)變的信息,已成為社會(huì )經(jīng)濟發(fā)展的重要因素。進(jìn)入互聯(lián)網(wǎng)時(shí)代,社交媒體和各種 APP 的廣泛使用,使信息可以更為便捷地獲取,但要獲得“有用的知識”,似乎變得更難。面對紛繁無(wú)序的網(wǎng)絡(luò ),如何高效、準確地查找所需要的信息,是每一個(gè)人都無(wú)法回避的問(wèn)題,誰(shuí)的“搜商”高,誰(shuí)就更有可能抓住機遇;同時(shí),信息安全和隱私保護也變得越來(lái)越重要。所以,信息檢索能力既是一種素養,更是一種生活技能。
新形態(tài)教材
國家精品課程配套教材
國家級精品資源共享課配套教材
《信息檢索與利用(第四版)》
鄧發(fā)云 編著(zhù)
書(shū)號:9787030713650
定價(jià):39.8元
出版時(shí)間:2022年5月
內容簡(jiǎn)介:本書(shū)系統地介紹信息素養、信息資源、信息檢索及其應用的基本知識,以及各種常用檢索工具的檢索方法與技巧,提供了大量的案例、圖表、思考與訓練、研討與訓練、基于檢索技巧的提示等,圖文并茂,便于教學(xué)與閱讀。
本書(shū)既可作為高等學(xué)校本科生、研究生的“信息檢索”課程教材與各類(lèi)信息機構的崗位培訓教材,也可作為工程技術(shù)人員、科研人員、教師從事信息檢索時(shí)的參考書(shū)。
作者建議
信息素養是一種生活技能,為了讀者更好地理解與使用本教材,有效地培養良好的信息素養和學(xué)習、適應能力,編者建議在使用中把握以下幾點(diǎn)。
強化 1 個(gè)信息意識。學(xué)會(huì )通過(guò)信息理解世界、溝通世界,學(xué)會(huì )通過(guò)信息檢索擴展自己的認知;任何時(shí)候遇到任何事情都能通過(guò)檢索、咨詢(xún)已有的經(jīng)驗教訓,優(yōu)化自己的決策方案,減少不確定性。無(wú)論購物、旅游、交友、找工作、科學(xué)研究,都養成一個(gè)收集資料、幫助自己分析的習慣。
注重 2 個(gè)能力培養。一是培養分析問(wèn)題和解決問(wèn)題的能力,既包括通過(guò)查詢(xún)他人的或已有的歷史成果與文獻資料尋求答案或者激發(fā)靈感,也包括通過(guò)信息檢索完善分析問(wèn)題的框架、邏輯與思路;二是能夠通過(guò)信息檢索找到自己的目標與方向,進(jìn)行規劃與預測,從而構建適合自己學(xué)習、工作、生活、科研的信息環(huán)境,包括信息資源、平臺、機構及其獲取渠道。
進(jìn)行 3 種基本知識訓練。一是掌握檢索基本技術(shù),包括邏輯組配、截詞、字段選擇、精確模糊匹配、檢索詞選??;二是了解常用資源、平臺、工具,資源如中國知網(wǎng)、萬(wàn)方數據、SCI、SDOS、IEL,平臺如本校圖書(shū)館、國家圖書(shū)館、CALIS、NSTL,工具如館藏目錄、搜索引擎、資源發(fā)現系統等;三是掌握常用檢索方法,包括檢索詞選取、基本檢索流程、檢索策略調整、排序、分類(lèi)與下載,能夠將檢索結果有效地融入需要解決的問(wèn)題中。
不斷激發(fā)信息需求并通過(guò)檢索滿(mǎn)足信息需求,從本質(zhì)而言,信息檢索是一種匹配和選擇,是信息需求與檢索結果的匹配。信息需求決定檢索工具、檢索方式的選擇。常識、大眾化、新聞、娛樂(lè )信息可用搜索引擎檢索;專(zhuān)利、標準與統計信息可從發(fā)布機構的網(wǎng)站檢索;學(xué)術(shù)科研信息可用數據庫檢索。復雜、精確的需求可采用高級檢索方式;模糊、簡(jiǎn)單的需求可采用簡(jiǎn)單檢索方式。檢索工具的功能設計(檢索選項或檢索框)正是用來(lái)滿(mǎn)足各種需求的,靈活運用各種檢索功能能夠有效提高檢索效率。從過(guò)程而言,信息檢索是需求的明晰與調整,只有在檢索的過(guò)程中,才能體會(huì )與領(lǐng)悟到檢索的意義和樂(lè )趣;只有把學(xué)習、工作、生活與科研遇到的各種問(wèn)題通過(guò)信息檢索的途徑解決,才能不斷提高信息意識與檢索技能,因此學(xué)好信息檢索必須經(jīng)過(guò)大量的實(shí)踐訓練。
本書(shū)特色
?。?)將信息需求與信息檢索結合起來(lái),將十多位作者關(guān)于信息檢索與利用的多年經(jīng)驗及技巧貫穿其中。
?。?)補充了新的內容:從國家、企業(yè)、個(gè)人層面介紹信息安全,從思維角度介紹網(wǎng)絡(luò )資源檢索技巧,從學(xué)習角度介紹數據獲取,從使用角度介紹創(chuàng )新創(chuàng )業(yè)的信息資源。
?。?)增加了學(xué)生參與的內容,包括每章提供1~3個(gè)研討與訓練,針對16學(xué)時(shí)和32學(xué)時(shí)課程的不同上機練習題等。
?。?)通過(guò)二維碼鏈接視頻等數字資源,便于深化學(xué)習。
目 錄
購書(shū)鏈接
京東
當當網(wǎng)
相關(guān)課程授課教師
可通過(guò)微信公眾號“科學(xué)EDU”
在線(xiàn)申請教學(xué)樣書(shū)
更多教學(xué)服務(wù) 查看全部
科學(xué) · 新書(shū) | 《信息檢索與利用(第四版)》正式出版
信息化時(shí)代,瞬息萬(wàn)變的信息,已成為社會(huì )經(jīng)濟發(fā)展的重要因素。進(jìn)入互聯(lián)網(wǎng)時(shí)代,社交媒體和各種 APP 的廣泛使用,使信息可以更為便捷地獲取,但要獲得“有用的知識”,似乎變得更難。面對紛繁無(wú)序的網(wǎng)絡(luò ),如何高效、準確地查找所需要的信息,是每一個(gè)人都無(wú)法回避的問(wèn)題,誰(shuí)的“搜商”高,誰(shuí)就更有可能抓住機遇;同時(shí),信息安全和隱私保護也變得越來(lái)越重要。所以,信息檢索能力既是一種素養,更是一種生活技能。
新形態(tài)教材
國家精品課程配套教材
國家級精品資源共享課配套教材
《信息檢索與利用(第四版)》
鄧發(fā)云 編著(zhù)
書(shū)號:9787030713650
定價(jià):39.8元
出版時(shí)間:2022年5月
內容簡(jiǎn)介:本書(shū)系統地介紹信息素養、信息資源、信息檢索及其應用的基本知識,以及各種常用檢索工具的檢索方法與技巧,提供了大量的案例、圖表、思考與訓練、研討與訓練、基于檢索技巧的提示等,圖文并茂,便于教學(xué)與閱讀。
本書(shū)既可作為高等學(xué)校本科生、研究生的“信息檢索”課程教材與各類(lèi)信息機構的崗位培訓教材,也可作為工程技術(shù)人員、科研人員、教師從事信息檢索時(shí)的參考書(shū)。
作者建議
信息素養是一種生活技能,為了讀者更好地理解與使用本教材,有效地培養良好的信息素養和學(xué)習、適應能力,編者建議在使用中把握以下幾點(diǎn)。
強化 1 個(gè)信息意識。學(xué)會(huì )通過(guò)信息理解世界、溝通世界,學(xué)會(huì )通過(guò)信息檢索擴展自己的認知;任何時(shí)候遇到任何事情都能通過(guò)檢索、咨詢(xún)已有的經(jīng)驗教訓,優(yōu)化自己的決策方案,減少不確定性。無(wú)論購物、旅游、交友、找工作、科學(xué)研究,都養成一個(gè)收集資料、幫助自己分析的習慣。
注重 2 個(gè)能力培養。一是培養分析問(wèn)題和解決問(wèn)題的能力,既包括通過(guò)查詢(xún)他人的或已有的歷史成果與文獻資料尋求答案或者激發(fā)靈感,也包括通過(guò)信息檢索完善分析問(wèn)題的框架、邏輯與思路;二是能夠通過(guò)信息檢索找到自己的目標與方向,進(jìn)行規劃與預測,從而構建適合自己學(xué)習、工作、生活、科研的信息環(huán)境,包括信息資源、平臺、機構及其獲取渠道。
進(jìn)行 3 種基本知識訓練。一是掌握檢索基本技術(shù),包括邏輯組配、截詞、字段選擇、精確模糊匹配、檢索詞選??;二是了解常用資源、平臺、工具,資源如中國知網(wǎng)、萬(wàn)方數據、SCI、SDOS、IEL,平臺如本校圖書(shū)館、國家圖書(shū)館、CALIS、NSTL,工具如館藏目錄、搜索引擎、資源發(fā)現系統等;三是掌握常用檢索方法,包括檢索詞選取、基本檢索流程、檢索策略調整、排序、分類(lèi)與下載,能夠將檢索結果有效地融入需要解決的問(wèn)題中。
不斷激發(fā)信息需求并通過(guò)檢索滿(mǎn)足信息需求,從本質(zhì)而言,信息檢索是一種匹配和選擇,是信息需求與檢索結果的匹配。信息需求決定檢索工具、檢索方式的選擇。常識、大眾化、新聞、娛樂(lè )信息可用搜索引擎檢索;專(zhuān)利、標準與統計信息可從發(fā)布機構的網(wǎng)站檢索;學(xué)術(shù)科研信息可用數據庫檢索。復雜、精確的需求可采用高級檢索方式;模糊、簡(jiǎn)單的需求可采用簡(jiǎn)單檢索方式。檢索工具的功能設計(檢索選項或檢索框)正是用來(lái)滿(mǎn)足各種需求的,靈活運用各種檢索功能能夠有效提高檢索效率。從過(guò)程而言,信息檢索是需求的明晰與調整,只有在檢索的過(guò)程中,才能體會(huì )與領(lǐng)悟到檢索的意義和樂(lè )趣;只有把學(xué)習、工作、生活與科研遇到的各種問(wèn)題通過(guò)信息檢索的途徑解決,才能不斷提高信息意識與檢索技能,因此學(xué)好信息檢索必須經(jīng)過(guò)大量的實(shí)踐訓練。
本書(shū)特色
?。?)將信息需求與信息檢索結合起來(lái),將十多位作者關(guān)于信息檢索與利用的多年經(jīng)驗及技巧貫穿其中。
?。?)補充了新的內容:從國家、企業(yè)、個(gè)人層面介紹信息安全,從思維角度介紹網(wǎng)絡(luò )資源檢索技巧,從學(xué)習角度介紹數據獲取,從使用角度介紹創(chuàng )新創(chuàng )業(yè)的信息資源。
?。?)增加了學(xué)生參與的內容,包括每章提供1~3個(gè)研討與訓練,針對16學(xué)時(shí)和32學(xué)時(shí)課程的不同上機練習題等。
?。?)通過(guò)二維碼鏈接視頻等數字資源,便于深化學(xué)習。
目 錄
購書(shū)鏈接
京東
當當網(wǎng)
相關(guān)課程授課教師
可通過(guò)微信公眾號“科學(xué)EDU”
在線(xiàn)申請教學(xué)樣書(shū)
更多教學(xué)服務(wù)
收藏|信息檢索技巧年終大盤(pán)點(diǎn)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2022-06-20 16:48
據統計,科研人員開(kāi)展項目時(shí)有51%的時(shí)間都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員的一項重要且亟待解決的問(wèn)題。
然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里尋找才能搜出。檢索不到、檢索不準、檢索不全,都是目前科技信息檢索中面臨的嚴峻問(wèn)題。
如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用技巧和方法。
數據庫的選擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,在檢索時(shí),根據所需信息的內容可以判斷出從哪些數據庫中獲得能減少查詢(xún)時(shí)間的合適數據,以此來(lái)提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫的話(huà),可選擇中國知網(wǎng)。
檢索字段的選取與確認
在選取檢索字段時(shí),我們應遵循“選全、選準”的原則,盡量避免遺漏主題詞,應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯,盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞,其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
檢索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
檢索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求的后果。所以,為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑和優(yōu)化檢索策略,從而提高檢索字段的檢索效率。
如果想要使檢索達到較高的專(zhuān)業(yè)度,就需要對檢索字段、檢索范圍及檢索策略等方面進(jìn)行不斷的修正、校準、優(yōu)化。
特殊檢索符號的使用
不同的算符會(huì )組成不同的檢索式,因此,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1. 雙引號
雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)進(jìn)行直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄;如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況呢?雙引號表示全字符匹配,就是一個(gè)字都不能差;可如果不加雙引號,“天津”這個(gè)詞能搜出10萬(wàn)條,“總后”這個(gè)詞能搜出10萬(wàn)條,“軍事”這個(gè)詞又會(huì )搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,濾掉很多冗余信息。
這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2. 減號
“-”的作用是去除標題中不相關(guān)的結果,找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3. 邏輯算符AND
用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄。
可見(jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4. 位置算符
★ NEAR,表示兩個(gè)檢索詞必須緊密相連,詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
★WITH,表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class或high-class。
5. 布爾邏輯算符
運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
★ OR,將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology的檢索結果中必然包含education或technology中的一個(gè)。
★ NOT,排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6. 截詞符
★“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。
★“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索雖減少了輸入的字符數目,但可以有效預防漏檢,提高查全率。
其他重要檢索事項
1. 注意英文檢索詞的選擇
在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但在實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞有不準確或不全面的情況,除此之外,還會(huì )出現中文直譯成英文的情況,這些都有可能導致搜集到的資料出現錯誤或不全。
例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2. 搜索引擎的靈活應用
搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。
大多數搜索引擎都支持元詞(metawords)檢索功能,把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。
例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能,可以很好地限制搜索范圍、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用,它直接影響檢索策略,影響檢索效率和檢索效果。
在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。 查看全部
收藏|信息檢索技巧年終大盤(pán)點(diǎn)
據統計,科研人員開(kāi)展項目時(shí)有51%的時(shí)間都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員的一項重要且亟待解決的問(wèn)題。
然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里尋找才能搜出。檢索不到、檢索不準、檢索不全,都是目前科技信息檢索中面臨的嚴峻問(wèn)題。
如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用技巧和方法。
數據庫的選擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,在檢索時(shí),根據所需信息的內容可以判斷出從哪些數據庫中獲得能減少查詢(xún)時(shí)間的合適數據,以此來(lái)提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫的話(huà),可選擇中國知網(wǎng)。
檢索字段的選取與確認
在選取檢索字段時(shí),我們應遵循“選全、選準”的原則,盡量避免遺漏主題詞,應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯,盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞,其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
檢索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
檢索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求的后果。所以,為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑和優(yōu)化檢索策略,從而提高檢索字段的檢索效率。
如果想要使檢索達到較高的專(zhuān)業(yè)度,就需要對檢索字段、檢索范圍及檢索策略等方面進(jìn)行不斷的修正、校準、優(yōu)化。
特殊檢索符號的使用
不同的算符會(huì )組成不同的檢索式,因此,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1. 雙引號
雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)進(jìn)行直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄;如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況呢?雙引號表示全字符匹配,就是一個(gè)字都不能差;可如果不加雙引號,“天津”這個(gè)詞能搜出10萬(wàn)條,“總后”這個(gè)詞能搜出10萬(wàn)條,“軍事”這個(gè)詞又會(huì )搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,濾掉很多冗余信息。
這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2. 減號
“-”的作用是去除標題中不相關(guān)的結果,找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3. 邏輯算符AND
用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄。
可見(jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4. 位置算符
★ NEAR,表示兩個(gè)檢索詞必須緊密相連,詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
★WITH,表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class或high-class。
5. 布爾邏輯算符
運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
★ OR,將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology的檢索結果中必然包含education或technology中的一個(gè)。
★ NOT,排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6. 截詞符
★“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。
★“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索雖減少了輸入的字符數目,但可以有效預防漏檢,提高查全率。
其他重要檢索事項
1. 注意英文檢索詞的選擇
在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但在實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞有不準確或不全面的情況,除此之外,還會(huì )出現中文直譯成英文的情況,這些都有可能導致搜集到的資料出現錯誤或不全。
例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2. 搜索引擎的靈活應用
搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。
大多數搜索引擎都支持元詞(metawords)檢索功能,把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。
例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能,可以很好地限制搜索范圍、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用,它直接影響檢索策略,影響檢索效率和檢索效果。
在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
圖解|通用搜索引擎背后的技術(shù)點(diǎn)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-06-19 03:01
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。 查看全部
圖解|通用搜索引擎背后的技術(shù)點(diǎn)
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
圖解通用搜索引擎背后的技術(shù)點(diǎn)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-06-19 03:00
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
點(diǎn)個(gè)在看,贊支持我吧
查看全部
圖解通用搜索引擎背后的技術(shù)點(diǎn)
1. 寫(xiě)在前面
今天準備和盆友們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1. 網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2. 單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3. 比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4. 為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
其實(shí)這個(gè)算法說(shuō)起來(lái)非常簡(jiǎn)單:比如寫(xiě)公眾號,有大V轉載就相當于引用了,越多其他公眾號轉載,說(shuō)明你的公眾號內容質(zhì)量越高。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
點(diǎn)個(gè)在看,贊支持我吧
畫(huà)了30張圖:死磕搜索引擎背后的故事
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2022-06-18 07:08
關(guān)注“腳本之家”,與百萬(wàn)開(kāi)發(fā)者在一起
來(lái)源 |后端技術(shù)指南針
1. 寫(xiě)在前面
今天準備和小伙伴們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1.網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2.單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3.比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4.為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。 查看全部
畫(huà)了30張圖:死磕搜索引擎背后的故事
關(guān)注“腳本之家”,與百萬(wàn)開(kāi)發(fā)者在一起
來(lái)源 |后端技術(shù)指南針
1. 寫(xiě)在前面
今天準備和小伙伴們一起學(xué)習下關(guān)于通用搜索引擎的一些技術(shù)點(diǎn)。
鑒于搜索引擎內容非常多,每一部分都夠寫(xiě)好幾篇文章的所以本文只是拋磚引玉,深入挖掘還得老鐵們親力親為。
通過(guò)本文你將對通用搜索引擎的基本原理和組成有一個(gè)較為清晰的認識,用心讀完,肯定有所收獲!
廢話(huà)不說(shuō),各位抓緊上車(chē),沖鴨!
2. 初識搜索引擎2.1 搜索引擎分類(lèi)
搜索引擎根據其使用場(chǎng)景和規模,可以簡(jiǎn)單分為兩大類(lèi):
通用搜索又稱(chēng)為大搜,諸如谷歌、百度、搜狗、神馬等等都屬于這一類(lèi)。
垂直搜索又稱(chēng)為垂搜,是特定領(lǐng)域的搜索,比如用QQ音樂(lè )搜周杰倫的歌等。
兩類(lèi)搜索引擎雖然數據規模和數據特征不一樣,但都是為了填平用戶(hù)和海量信息之間的鴻溝。
2.2 搜索和推薦
搜索和推薦經(jīng)常被相提并論,但是二者存在一些區別和聯(lián)系。
2.3 搜索引擎評價(jià)標準
我們每天都和搜索引擎打交道,評價(jià)一個(gè)搜索引擎的好壞可簡(jiǎn)單概括為:精準性、時(shí)效性、響應速度、權威性等。
換句話(huà)說(shuō),搜索引擎懂得用戶(hù)真正想要找什么,可以快速準確地展示出來(lái),對于一些熱點(diǎn)突發(fā)信息也可以及時(shí)收錄展示,就能很好地博得用戶(hù)。
這個(gè)目標需要搜索引擎多個(gè)模塊協(xié)作處理,是個(gè)復雜的系統工程,并非易事。
3. 通用搜索引擎的整體概覽3.1 搜索引擎的基本流程
大白嘗試用樸實(shí)的語(yǔ)言來(lái)整體表達下,通用搜索引擎大致是怎么工作的:
1.網(wǎng)絡(luò )蜘蛛爬蟲(chóng)每天不辭辛苦地收錄網(wǎng)頁(yè),然后存儲起來(lái),這樣各個(gè)站點(diǎn)的頁(yè)面就有了一份份鏡像,這個(gè)規模是百億/千億級的。
2.單純地鏡像也不能直接用,需要加工處理,把一個(gè)個(gè)網(wǎng)頁(yè)進(jìn)行分詞,建立搜索詞和網(wǎng)頁(yè)的對應關(guān)系,這樣用戶(hù)搜索某個(gè)東西時(shí),才會(huì )拿到很多相關(guān)的網(wǎng)頁(yè)。
3.比如"搜索隱秘的角落"可能會(huì )有100個(gè)相關(guān)網(wǎng)頁(yè)被找到,但是網(wǎng)頁(yè)和檢索詞的關(guān)聯(lián)性肯定有強有弱,因此還需要進(jìn)行網(wǎng)頁(yè)的排序,排序策略有很多,最終把優(yōu)質(zhì)的網(wǎng)頁(yè)排在前面展示給用戶(hù)。
用戶(hù)看到相關(guān)結果之后,進(jìn)行點(diǎn)擊或者跳過(guò),搜索引擎根據用戶(hù)的相關(guān)動(dòng)作進(jìn)行調整,實(shí)現整個(gè)閉環(huán)過(guò)程。
4.為了能更好地理解用戶(hù)的真實(shí)用途,需要進(jìn)行檢索詞的意圖理解、詞條切分、同義詞替換、語(yǔ)法糾錯等處理,再根據這些檢索詞去獲取數據,為用戶(hù)找到心中所想的網(wǎng)頁(yè)。
比如檢索詞為"老鷹",可能是自然界的老鷹,也可能是NBA的一只球隊:
3.2 搜索引擎的基本組成
我們從整體簡(jiǎn)單看下基本組成以及各個(gè)模塊的主要功能:
接下來(lái),我們將粗淺地介紹幾個(gè)模塊的基本內容和技術(shù)點(diǎn)。
4. 網(wǎng)絡(luò )爬蟲(chóng)模塊簡(jiǎn)介
網(wǎng)絡(luò )爬蟲(chóng)模塊是通用搜索引擎非常的基礎組件,一般都會(huì )采用分布式爬蟲(chóng)來(lái)實(shí)現,我們來(lái)看看這個(gè)搬運工是如何實(shí)現海量網(wǎng)頁(yè)發(fā)掘的:
網(wǎng)絡(luò )爬蟲(chóng)的基本流程:
在抓取過(guò)程中會(huì )有多種遍歷策略:深度優(yōu)先遍歷DFS、廣度優(yōu)先遍歷BFS、部分PageRank策略、OPIC在線(xiàn)頁(yè)面重要性計算策略、大站優(yōu)先策略等。
在工程實(shí)踐中需要根據自身情況和搜索引擎特點(diǎn)進(jìn)行選擇某種策略或者多種策略組合。
網(wǎng)絡(luò )爬蟲(chóng)需要遵循Robots協(xié)議(網(wǎng)絡(luò )爬蟲(chóng)排除標準),這是網(wǎng)絡(luò )爬蟲(chóng)和站點(diǎn)之間的君子協(xié)定,站點(diǎn)通過(guò)協(xié)議告訴網(wǎng)絡(luò )爬蟲(chóng)哪些可以抓哪些不可以。
網(wǎng)絡(luò )爬蟲(chóng)同時(shí)需要考慮抓取頻率,防止給站點(diǎn)造成過(guò)重負擔,總之,搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)需要是個(gè)謙謙君子。
5. 網(wǎng)頁(yè)內容處理模塊
爬蟲(chóng)模塊將網(wǎng)頁(yè)內容存儲之后,網(wǎng)頁(yè)內存處理模塊開(kāi)始解析網(wǎng)頁(yè)內容,主要工作包括:數據清洗、網(wǎng)頁(yè)內容分詞、建立正排索引、建立倒排索引等。
5.1 數據清洗
一般來(lái)說(shuō),網(wǎng)頁(yè)中除了具體內容還會(huì )有很多無(wú)關(guān)的東西,比如html標簽、推廣等,這些在實(shí)際搜索引擎中都是無(wú)用的。
內容處理模塊會(huì )將無(wú)用數據、標簽清洗掉,為后續的分詞做準備。
5.2 中文分詞
將清洗完成的內容進(jìn)行分詞提取關(guān)鍵詞,比如一個(gè)網(wǎng)頁(yè)內容有1000字,分詞之后大約有50個(gè)詞,相當于提取了網(wǎng)頁(yè)的主干,并且會(huì )對標題、摘要、正文等不同部分的內容做不同權重處理。
分詞過(guò)程中會(huì )剔除停用詞、虛詞等,比如"的、得、地"等,從而極力還原網(wǎng)頁(yè)的主干內容。
我們用在線(xiàn)網(wǎng)頁(yè)分詞工具和真實(shí)網(wǎng)頁(yè)來(lái)模擬下這個(gè)過(guò)程:
網(wǎng)頁(yè)分詞在線(xiàn)工具:
抓取網(wǎng)頁(yè):
可以看到分詞后可以標注詞頻,這些都是后續作為網(wǎng)頁(yè)排序的重要來(lái)源,但是中文是很復雜的,因此分詞算法會(huì )有很多種,常見(jiàn)的包括:
5.3 正排索引
假定我們將每個(gè)網(wǎng)頁(yè)進(jìn)行唯一編號docid,經(jīng)過(guò)前面的分詞一個(gè)網(wǎng)頁(yè)將被分成不同權重的多個(gè)實(shí)體詞。
所謂正排就是根據docid可以拿到屬于該網(wǎng)頁(yè)的所有內容,是一個(gè)符合我們思維的正向過(guò)程,相對而言會(huì )有倒排索引。
我們以一篇《隱秘的角落》劇情簡(jiǎn)介的頁(yè)面為例,模擬分詞情況,大致如下(本分詞結果純屬腦補,以實(shí)際為準):
5.4 倒排索引
假如我們對10000個(gè)網(wǎng)頁(yè)進(jìn)行了分詞,其中包含了一些公共檢索詞:微山湖、智取威虎山、三十而立、隱秘的角落等,因此我們匯總之后將建立檢索詞->網(wǎng)頁(yè)的映射關(guān)系。
那么對于檢索詞"隱秘的角落"出現很多個(gè)網(wǎng)頁(yè),倒排索引就相當于從一個(gè)詞能拉取到多少文章的過(guò)程。
就如同我們提到美食就想到:火鍋、燒烤、烤鴨、炒菜等等,是一個(gè)從點(diǎn)到面的過(guò)程,這種逆向過(guò)程在搜索引擎中非常重要。
5.5 本章小結
內容處理模塊將抓取到的網(wǎng)頁(yè)進(jìn)行清洗、提前新URL給爬蟲(chóng)模塊、內容分詞、建立正排索引和倒排索引,是個(gè)承上啟下的中間環(huán)節。
特別地,提一下正排索引和倒排索引,字面上并不直觀(guān),其實(shí)道理并不難理解:
正排索引:具體到一篇網(wǎng)頁(yè)有多少關(guān)鍵詞,特指屬于該網(wǎng)頁(yè)本身的內容集合,是一個(gè)網(wǎng)頁(yè)。
倒排索引:一個(gè)檢索關(guān)鍵詞對應多少相關(guān)聯(lián)的網(wǎng)頁(yè),也就是可備選網(wǎng)頁(yè)集合,是一類(lèi)網(wǎng)頁(yè)。
6. 網(wǎng)頁(yè)排序和用戶(hù)模塊6.1 網(wǎng)頁(yè)排序的必要性
由于存儲的網(wǎng)頁(yè)是百千億級的,那么一個(gè)檢索詞可能對于幾萬(wàn)、幾十萬(wàn)甚至更多相關(guān)的網(wǎng)頁(yè)。
網(wǎng)頁(yè)排序需要綜合考慮:相關(guān)性、權威性、時(shí)效性、豐富度等多個(gè)方面。
搜索引擎要展示優(yōu)質(zhì)的強關(guān)聯(lián)網(wǎng)頁(yè)給用戶(hù),并且放在靠前的位置,否則搜索效果將會(huì )很差,用戶(hù)并不買(mǎi)賬。
事實(shí)上也是如此,比如搜索引擎返回了10頁(yè)結果,每頁(yè)10條,總結100條,一般用戶(hù)點(diǎn)擊到1-3頁(yè)之后的網(wǎng)頁(yè)大概率就不再點(diǎn)擊了,因此排序的頭部?jì)热輰τ谒阉鹘Y果至關(guān)重要。
我們仍然以檢索"隱秘的角落"為例,百度共計返回了10頁(yè),其中1-2頁(yè)的內容是強關(guān)聯(lián)的,是個(gè)比較不錯的檢索結果了:
6.2 網(wǎng)頁(yè)排序的常見(jiàn)策略
網(wǎng)頁(yè)排序策略是個(gè)不斷優(yōu)化和提升的演進(jìn)過(guò)程,我們來(lái)一起看下都有哪些排序策略:
這是早期搜索引擎常采取的方法,相對簡(jiǎn)單但是效果還不錯。
簡(jiǎn)單來(lái)說(shuō)就是根據網(wǎng)頁(yè)中關(guān)鍵詞的出現頻率以及出現位置作為排序依據,因為普遍認為:檢索詞出現次數越多、位置越重要,網(wǎng)頁(yè)的關(guān)聯(lián)性越好,排名越靠前。
詞頻并不是單純的統計次數,需要有全局觀(guān)念來(lái)判斷關(guān)鍵詞的相對次數,這就是我們要說(shuō)的TF-IDF逆文檔頻率,來(lái)看下百度百科的解釋?zhuān)?br /> TF-IDF (term frequency–inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術(shù)。
TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
TF-IDF是一種統計方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語(yǔ)料庫中的其中一份文件的重要程度。
字詞的重要性隨著(zhù)它在文件中出現的次數成正比增加,但同時(shí)會(huì )隨著(zhù)它在語(yǔ)料庫中出現的頻率成反比下降。
舉個(gè)栗子:
網(wǎng)頁(yè)中"吃飯"這個(gè)詞出現了10次,雖然次數很多,但是"吃飯"這個(gè)詞過(guò)于普通,因為在很多其他網(wǎng)頁(yè)都出現了,因此"吃飯"這個(gè)檢索詞的重要性就相對下降了。
鏈接分析排序認為:網(wǎng)頁(yè)被別的網(wǎng)頁(yè)引用的次數越多或者越權威的網(wǎng)頁(yè)引用,說(shuō)明該網(wǎng)頁(yè)質(zhì)量越高。
基于鏈接分析的排序算法有很多種,其中最有名的PageRank算法被谷歌廣泛采用,是其核心排序算法。
來(lái)看下PageRank算法的基本思想:
網(wǎng)頁(yè)的重要程度用PageRank值來(lái)衡量,網(wǎng)頁(yè)的PageRank值體現在兩個(gè)方面:引用該網(wǎng)頁(yè)其他網(wǎng)頁(yè)個(gè)數和引用該頁(yè)面的其他頁(yè)面的重要程度。
假定一個(gè)網(wǎng)頁(yè)A被另一個(gè)網(wǎng)頁(yè)B引用,網(wǎng)頁(yè)B就將PageRank值分配給網(wǎng)頁(yè)B所引用的網(wǎng)頁(yè),所以越多引用網(wǎng)頁(yè)A則其PageRank值也就越高。
另外網(wǎng)頁(yè)B越重要,它所引用的頁(yè)面能分配到的PageRank值就越多,網(wǎng)頁(yè)A的PageRank值也就越高越重要。
PageRank算法也存在一定的問(wèn)題,比如對新頁(yè)面不友好,新頁(yè)面暫時(shí)沒(méi)有被大量引用,因此PageRank值很低,并且PageRank算法強調網(wǎng)頁(yè)之間的引用關(guān)系,對網(wǎng)頁(yè)本身的主題內容可能重視程度不夠,也就是所謂的主題漂流問(wèn)題。
與PageRank算法類(lèi)似于的還有一些其他算法來(lái)彌補主題關(guān)聯(lián)問(wèn)題,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展開(kāi)了。
6.3 網(wǎng)頁(yè)反作弊和SEO
搜索引擎也存在二八原則,頭部的網(wǎng)頁(yè)占據了大量的點(diǎn)擊流量,也意味著(zhù)巨大的商業(yè)價(jià)值。
這里就要提到SEO,先看下百度百科對SEO的定義:
搜索引擎優(yōu)化又稱(chēng)為SEO,即Search Engine Optimization,它是一種通過(guò)分析搜索引擎的排名規律,了解各種搜索引擎怎樣進(jìn)行搜索、怎樣抓取互聯(lián)網(wǎng)頁(yè)面、怎樣確定特定關(guān)鍵詞的搜索結果排名的技術(shù)。
搜索引擎采用易于被搜索引用的手段,對網(wǎng)站進(jìn)行有針對性的優(yōu)化,提高網(wǎng)站在搜索引擎中的自然排名,吸引更多的用戶(hù)訪(fǎng)問(wèn)網(wǎng)站,提高網(wǎng)站的訪(fǎng)問(wèn)量,提高網(wǎng)站的銷(xiāo)售能力和宣傳能力,從而提升網(wǎng)站的品牌效應。
道高一尺魔高一丈,只有魔法可以打敗魔法。
網(wǎng)頁(yè)反作弊是搜索引擎需要解決的重要問(wèn)題,常見(jiàn)的有內容反作弊、鏈接分析反作弊等。
6.4 用戶(hù)搜索意圖理解
用戶(hù)模塊直接和用戶(hù)交互,接收用戶(hù)的搜索詞,準確理解用戶(hù)的搜索意圖非常重要。
實(shí)際上用戶(hù)的輸入是五花八門(mén)的,偏口語(yǔ)化,甚至有拼寫(xiě)錯誤、并且不同背景的用戶(hù)對同一個(gè)檢索詞的需求不一樣、無(wú)爭議檢索詞的使用目的也不一樣。
7. 全文總結
搜索引擎是個(gè)非常復雜的系統工程,涉及非常多的算法和工程實(shí)現,本文旨在和大家一起簡(jiǎn)單梳理搜索引擎的基本組成和運行原理,算是科普文章了。
搜索引擎中每一個(gè)模塊做好都不容易,也是互聯(lián)網(wǎng)產(chǎn)品中技術(shù)含金量的典型代表,深挖一個(gè)模塊都受益匪淺。
這些科技信息檢索技巧,學(xué)到了嗎?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2022-06-10 11:04
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧” 查看全部
這些科技信息檢索技巧,學(xué)到了嗎?
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧”
整理網(wǎng)站推廣二十九種經(jīng)典方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 122 次瀏覽 ? 2022-06-10 10:58
如何增加網(wǎng)站訪(fǎng)問(wèn)量?以下是你可以考慮采用 29 個(gè)方法。其中,你或許已經(jīng)采用了一些,有的方法你可能忘了采用,還有一些是你從來(lái)沒(méi)有聽(tīng)說(shuō)過(guò)的??傊?,在這里你可以了結到當前各種有效的網(wǎng)站推廣方法。首先你要了解,網(wǎng)站推廣是一個(gè)長(cháng)期而且系統的過(guò)程,需要制定明確的目標和計劃,并做好相應的準備。
一、添加網(wǎng)頁(yè)標題
為每頁(yè)內容寫(xiě) 5 到 8 個(gè)字的描述性標題。標題要簡(jiǎn)練“的”“和”這些不重要的詞匯。要說(shuō)明該頁(yè)面,該網(wǎng)站最重要的內容是什么。網(wǎng)頁(yè)標題將出現在搜索結果頁(yè)面的鏈接上,因此可以寫(xiě)得稍帶煽動(dòng)性,以吸引搜索者點(diǎn)擊該鏈接。同時(shí)在首頁(yè)內容中寫(xiě)上你的公司名和你最重要的關(guān)鍵詞,而不能只是寫(xiě)公司名。網(wǎng)站的每一個(gè)頁(yè)面都應該有針對該頁(yè)面的標題。
二、添加描述性 META 標簽
除了網(wǎng)頁(yè)標題,不少搜索引擎會(huì )搜索到 META 標簽。這是一句說(shuō)明性文字。描述網(wǎng)頁(yè)正文的內容,句中也要包含本頁(yè)使用到的關(guān)鍵詞,詞組等。目前,含關(guān)鍵詞的 META 標簽已經(jīng)對排名幫助不大,但有時(shí) META 標簽會(huì )用于付費登陸技術(shù)中。而且誰(shuí)又知道什么時(shí)候搜索引擎又會(huì )再次重視它呢?
三、在網(wǎng)頁(yè)粗體文字,一般為文章標題中也填上你的關(guān)鍵詞
搜索引擎很重視粗體文字,以為這是本頁(yè)很重要的內容。因此,確保在一二個(gè)粗體文字標簽中寫(xiě)上你的關(guān)鍵詞。要盡量避免將重要的標題都制作成圖片的形式,更不要將整個(gè)首頁(yè)都做成一個(gè)圖片。
四、確保在你的正文第一段就出現關(guān)鍵詞
搜索引擎希望在第一段文字中就找到你的關(guān)鍵詞,但不要充斥過(guò)多關(guān)鍵詞。google 大概將全文每 100 個(gè)字出現 1.5 到 2 個(gè)關(guān)鍵詞視為最佳的關(guān)鍵詞密度,可獲得好排名。其他可考慮放置關(guān)鍵詞的地方可以在代碼的 ALT 或者 COMMEET 標簽里面。如果無(wú)法保證正文第一段出現關(guān)鍵詞,可以考慮一些不救措施,比如給網(wǎng)頁(yè)加一個(gè)批注等等。
五、導航設計要易于搜索引擎搜索
有些人在網(wǎng)頁(yè)制作中使用框架,但是這對于搜索引擎是一個(gè)嚴重的問(wèn)題。即使搜索引擎找到你的內容頁(yè)面,也可能錯過(guò)其中關(guān)鍵性的導航欄目,從而不能進(jìn)入到其他頁(yè)面。用 JAVA和 FLASH 做的導航按鈕看起來(lái)是很漂亮美觀(guān),但是搜索引擎找不到它們。補救的辦法是在頁(yè)面底部用常規 HTML 鏈接再作一個(gè)導航條,確??梢酝ㄟ^(guò)這個(gè)導航條進(jìn)入網(wǎng)站的每一頁(yè)。你還可以做一個(gè)網(wǎng)站地圖,也可以鏈接到每一頁(yè)面。此外,有些內容管理系統和電子商務(wù)目錄運用動(dòng)態(tài)的網(wǎng)頁(yè),這些頁(yè)面的網(wǎng)址后面一般都有一個(gè)問(wèn)號帶上數字,工作過(guò)度的搜索引擎往往在問(wèn)號前停下,不在繼續搜索。對于這種情況??梢酝ㄟ^(guò)更改 URL,付費登陸等手段加以解決。動(dòng)態(tài)站點(diǎn)可以通過(guò)生成靜態(tài)頁(yè)面的技術(shù)方便搜索引擎的抓取。網(wǎng)站地圖要盡量可能鏈接到所有的主要頁(yè)面,并單獨把站點(diǎn)地圖頁(yè)面提交給搜索引擎。多使用 HTML 靜態(tài)網(wǎng)頁(yè),雖然增加了工作量,但可以增加搜索引擎的友好度,從而為獲得好的排名打下基礎。
六、針對某些特別重要的關(guān)鍵詞,專(zhuān)門(mén)做幾個(gè)頁(yè)面
搜索引擎優(yōu)化專(zhuān)家不推薦使用任何針對搜索引擎的欺騙性過(guò)渡頁(yè)面,因為這些幾乎是復制出來(lái)的網(wǎng)頁(yè)可能搜索引擎的懲罰。但可以做幾個(gè)頁(yè)面,每頁(yè)集中包含不同的關(guān)鍵詞或詞組 。例如,無(wú)須在某一頁(yè)上介紹你所有的服務(wù)內容,而是為每種服務(wù)分別作一個(gè)頁(yè)面。這樣,每一頁(yè)都有相對應額關(guān)鍵詞,這些頁(yè)面內容因為包含針對性的關(guān)鍵詞而不是籠統的內容,從而可以提高排名。
七、向搜索引擎提交網(wǎng)頁(yè)
在搜索引擎是找到【ADD YOUR URL】網(wǎng)站登陸的鏈接。搜索引擎將自動(dòng)搜索你提交的網(wǎng)頁(yè)。美國最著(zhù)名的搜索引擎是:google、inktomi、alta、vista、 tehoma。這些搜索引擎向其它主要搜索引擎和門(mén)戶(hù)網(wǎng)站提供搜索內容。在歐洲和其他地區你可以發(fā)布到區域性的搜索引擎。至于花錢(qián)請人幫你提交成千上萬(wàn)的搜索引擎的做法是在白花錢(qián)。也不要在那些 FFA(free for all pages)網(wǎng)站,即所謂將你的網(wǎng)站免費自動(dòng)提交到數百搜索引擎的站點(diǎn)。這類(lèi)提交不僅效果不好,還會(huì )給你帶來(lái)大量的垃圾郵件,并可能導致搜索引擎對你的網(wǎng)頁(yè)進(jìn)行懲罰。也不要使用網(wǎng)站登陸軟件,所謂可以一次性將你的網(wǎng)站提交給數以千計的搜索引擎,其實(shí)不僅是不可能的,也是沒(méi)有實(shí)際價(jià)值的。最重要的是做好網(wǎng)站的優(yōu)化設計,對于主要搜索引擎,采用逐個(gè)手工提交的方式來(lái)進(jìn)行 。對于付費搜索引擎,更不可能依靠軟件來(lái)提交。事實(shí)上,有效的搜索引擎營(yíng)銷(xiāo)策略根本不需要將網(wǎng)站登陸到數以千計的搜索引擎,因為訪(fǎng)問(wèn)量最大的幾個(gè)搜索引擎幾乎集中了 98%以上的訪(fǎng)問(wèn)量,剩下的搜索引擎沒(méi)有多少實(shí)際意義。另外要注意,提交網(wǎng)頁(yè)不應該是一次性的 ,隨著(zhù)內容的更新,應該定期重新提交網(wǎng)頁(yè)。由于網(wǎng)絡(luò )頁(yè)面越來(lái)越多,很多搜索機器人的回訪(fǎng)時(shí)間很長(cháng),定期提交可以讓搜索引擎前來(lái)抓取最新的更新內容。
八、調整主要內容頁(yè)面以提高排名
將你認為最重要的頁(yè)面,或許是首頁(yè)作一些調整,以提高他們的排名。有一些軟件可以讓你檢查當前的排名,比較跟你的關(guān)鍵詞相同的競爭者的網(wǎng)頁(yè)排名,還可以獲得搜索引擎對你的網(wǎng)頁(yè)的首選統計數據,從而對自己的頁(yè)面進(jìn)行調整。你可以使用 webpositiongold 自己做這個(gè)工作,但由于很花時(shí)間,也可以請專(zhuān)業(yè)的公司幫你做。在其他網(wǎng)站做鏈接可以帶來(lái)更多訪(fǎng)問(wèn)量。自從 google 等主要搜索引擎將網(wǎng)站的鏈接廣泛度作為排名參考的重要因素以后,越多網(wǎng)站鏈接你,你的網(wǎng)站排名越高。同時(shí),鏈接的質(zhì)量也是搜索引擎考慮的重要因素。鏈接在訪(fǎng)問(wèn)量高的網(wǎng)站比鏈接在訪(fǎng)問(wèn)量低的網(wǎng)站更有優(yōu)勢。
九、將網(wǎng)站提交到主要的檢索目錄
確保你的網(wǎng)站登陸到免費的 open directory(),這是由人工進(jìn)行登陸審查的網(wǎng)站。該分級目錄為所有主要搜索引擎提供目錄內容提供搜索。google 很看重你的網(wǎng)站是否在這類(lèi)重要的網(wǎng)站有鏈接。yahoo 是另一個(gè)重要的檢索目錄,需要在上面登陸。提示:描述網(wǎng)站的字數最好比規定的最高字數少,不要剛好達到字數限制,以免太長(cháng)的文字描述使得網(wǎng)站審核人員刪除一些句段。目前商業(yè)網(wǎng)站登陸 yahoo 每年要交¥299,最好讓他們在 7個(gè)工作日內就將你的網(wǎng)站登陸上去。其他可以考慮登陸的檢索目錄有 和。國內有很多網(wǎng)站導航站點(diǎn)。例http:// http:// 等等,也能帶來(lái)非常大的流量。即使網(wǎng)絡(luò )營(yíng)銷(xiāo)預算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登記的。
十、做專(zhuān)業(yè)
將網(wǎng)站登陸到行業(yè)站點(diǎn)和專(zhuān)業(yè)目錄中有一些檢索目錄定位于某個(gè)行業(yè),如教育或金融業(yè)。如果你屬于某個(gè)貿易協(xié)會(huì ),該協(xié)會(huì )集中了諸多會(huì )員站點(diǎn),你可向該協(xié)會(huì )網(wǎng)站申請加入你的站點(diǎn),哪怕付費也是應該的,因為這會(huì )為你帶來(lái)許多目標訪(fǎng)問(wèn)者。除了可以登陸到很多黃頁(yè)類(lèi)網(wǎng)站,到搜索引擎按照你的行業(yè)查找,一定也能找到很多相關(guān)的行業(yè)目錄站點(diǎn),應該盡量登陸這些站點(diǎn)。
十一、請求互換鏈接
尋找一些與你的網(wǎng)站內容互補的站點(diǎn)向對方要求互換鏈接。最理想的鏈接對象是那些與你的網(wǎng)站流量相當的網(wǎng)站。流量太大的網(wǎng)站管理員要應付太多要求互換鏈接的請求,容易將你忽略。小的一些網(wǎng)站頁(yè)可以考慮?;Q鏈接頁(yè)面要放在網(wǎng)站比較偏僻的地方,以免將你的網(wǎng)站訪(fǎng)問(wèn)者很快引向他人的站點(diǎn)。找到可以互換鏈接的網(wǎng)站之后,發(fā)一封個(gè)性化的電郵給對方網(wǎng)站管理,如果對方?jīng)]有回復,再打電話(huà)試一試。一定要關(guān)注對方網(wǎng)站的質(zhì)量,不要片面追求鏈接數量,更不要發(fā)垃圾郵件。
十二、發(fā)表免費文章,附帶站點(diǎn)簽名
免費為其他網(wǎng)站的新聞郵件寫(xiě)一些專(zhuān)業(yè)性文章,文章里用簡(jiǎn)短的文字附帶描述你提供的東西,并請求對方鏈接你的網(wǎng)站。這是一種有效的病毒營(yíng)銷(xiāo)方法,你的文章將作為成千上百的用戶(hù)訂閱信息發(fā)出去,讓你的網(wǎng)站一次性獲得幾百個(gè)鏈接。沒(méi)有自己的原創(chuàng )文章,轉載別人的文章時(shí)一定也要加上自己的鏈接。網(wǎng)下的傳統推廣方法依然奏效。多種手段并用的方法尤其有效。
十三、將你的網(wǎng)址印在信紙、名片、宣傳冊、印刷品上
這種簡(jiǎn)單的方法有時(shí)候卻被忽略了。確保網(wǎng)址拼寫(xiě)正確。建議把 http://部 分省 略,只書(shū)寫(xiě) http://www.****.com/部分。一個(gè)易于記憶的域名有利于網(wǎng)站的推廣,在選擇域名時(shí)一定要仔細考慮。
十四、使用傳統媒體廣告
傳統媒體廣告不應該廢止。無(wú)論是報紙還是雜志廣告,務(wù)必確保在其中展示你的網(wǎng)址。要將查看網(wǎng)站作為廣告的輔助內容,提醒用戶(hù)瀏覽網(wǎng)站將取得更多相關(guān)信息。別忽視在一些定位相對比較狹窄的雜志或者貿易期刊刊登廣告,有時(shí)候這些廣告定位會(huì )更加準確、有效。而且比網(wǎng)絡(luò )廣告更便宜。還有其它傳統方式可增加網(wǎng)站訪(fǎng)問(wèn)量,如直郵、分類(lèi)廣告、明信片等等。電視廣告恐怕更適合于那些銷(xiāo)售大眾化商品的網(wǎng)站。讓網(wǎng)址出現在廣告中顯眼的位置 ,相信比電話(huà)號碼更好記憶
十五、提供免費服務(wù)
人們都喜歡免費的東西。通過(guò)免費信息內容吸引人們訪(fǎng)問(wèn)你的網(wǎng)站,比單純叫人來(lái)訪(fǎng)問(wèn)了解你的業(yè)務(wù)更有效。建立免費資源需要花費時(shí)間和精力,但是對增加訪(fǎng)問(wèn)量非常有效。你提供的免費內容要與你銷(xiāo)售的東西非常接近,這樣你吸引來(lái)得訪(fǎng)問(wèn)者才有可能時(shí)目標潛在客戶(hù),提供免費服務(wù)的同時(shí),網(wǎng)站要提供多種鏈接方式將獲取免費信息的用戶(hù)注意力引導到你銷(xiāo)售的產(chǎn)品部分。免費資源比如:免費郵箱、免費網(wǎng)站登陸、免費發(fā)布信息、能提供具有特色的免費服務(wù)那就更好了。
十六、發(fā)布新聞
尋找具有新聞價(jià)值的事件,比如宣傳你提供免費服務(wù),并將新聞發(fā)布到你所在行業(yè)的印刷期刊和網(wǎng)站期刊上。你可以使用一些網(wǎng)絡(luò )新聞發(fā)布服務(wù)。 新聞推廣總是有效的,這就是為什么傳統媒體會(huì )有那么多企業(yè)的廣告看起來(lái)很像新聞的原因。電子郵件是增加訪(fǎng)問(wèn)量的重要方法,但前提是不能大量發(fā)送未經(jīng)許可的垃圾郵件。
十七、在你發(fā)出的郵件中創(chuàng )建一個(gè)簽名,讓潛在客戶(hù)與你聯(lián)系
大部分的郵件系統都有創(chuàng )建簽名的功能。簽名會(huì )自動(dòng)出現在你發(fā)出去的每封郵件末尾。簽名要限制在 6-8 行之內。包括:公司名稱(chēng)、地址、電話(huà)、網(wǎng)址、電子郵件和一句你的企業(yè)的描述。簽名不要為了漂亮設計為圖片格式,要便于客戶(hù)復制拷貝。
十八、建立郵件列表,定期向用戶(hù)發(fā)送新聞郵件或其他信息
這是與客戶(hù)保持聯(lián)系、建立信任、發(fā)展品牌及建立長(cháng)期關(guān)系的最好方法之一。你可以請網(wǎng)站訪(fǎng)問(wèn)者填寫(xiě)他們的電子郵件地址,從而收取你的新聞郵件。發(fā)送郵件需要采用群發(fā)服務(wù)器,這些在網(wǎng)絡(luò )上有很多。
十九、向郵件列表用戶(hù)發(fā)布產(chǎn)品信息,如優(yōu)惠券,新產(chǎn)品及其其他促銷(xiāo)信息
如果將郵件主題和正文進(jìn)行個(gè)性化處理將獲得更好的效果。郵件主題設計的 5 個(gè)基本原則是:1、體現出郵件內容的精華。2、體現出發(fā)件人信息中無(wú)法包含的內容。3、體現出品牌或者產(chǎn)品信息。4、郵件主題含有豐富的關(guān)鍵詞。5、郵件主題不宜過(guò)于簡(jiǎn)單或者過(guò)于復雜 。
二十、租用目標客戶(hù)郵件列表
這些郵件列表客戶(hù)在郵件列表商的網(wǎng)站注冊的時(shí)候同意接受某些類(lèi)別商業(yè)郵件信息,因此向這些用戶(hù)發(fā)送你的產(chǎn)品信息是合法的,不屬于垃圾郵件。自己用郵址搜索軟件收集電子郵件地址,或者購買(mǎi)電子郵件地址都屬于垃圾郵件,不僅不會(huì )帶來(lái)好處,甚至會(huì )收到懲罰。
二十一、在郵件列表和新聞組中進(jìn)行促銷(xiāo)
許多在某一專(zhuān)業(yè)領(lǐng)域中有著(zhù)共同興趣的人在網(wǎng)絡(luò )上進(jìn)行討論交流,形成成千上萬(wàn)不同領(lǐng)域的新聞組。找到自己領(lǐng)域內的新聞組,不是要在其中公開(kāi)宣傳你的產(chǎn)品或者服務(wù),而是在交流的簽名中留下你的電子郵件地址和網(wǎng)站。當人們逐漸了解并信任你的時(shí)候,他們會(huì )訪(fǎng)問(wèn)你的網(wǎng)站。新聞組在國內應用不多,因此算不上常用的網(wǎng)站推廣方法。論壇和聊天室曾經(jīng)被用來(lái)宣傳產(chǎn)品,但現在很多網(wǎng)站并不歡迎在這些網(wǎng)絡(luò )社區發(fā)布廣告信息,除非有專(zhuān)門(mén)的廣告發(fā)布版塊,否則盡量不要采用這種方式。
二十二、運用競賽
你可以在網(wǎng)站上設計一個(gè)競賽,獎品要能夠吸引那些你最希望獲得的那類(lèi)客戶(hù)。比如將獎品設計為你的產(chǎn)品或一定的購買(mǎi)折扣等等。運用競賽可以有效的吸引更多訪(fǎng)問(wèn)量。如果你的知名度不高,如何讓客戶(hù)知道你開(kāi)展競賽也是一個(gè)問(wèn)題,因此對有些網(wǎng)站這種方式并不適用。 查看全部
整理網(wǎng)站推廣二十九種經(jīng)典方法
如何增加網(wǎng)站訪(fǎng)問(wèn)量?以下是你可以考慮采用 29 個(gè)方法。其中,你或許已經(jīng)采用了一些,有的方法你可能忘了采用,還有一些是你從來(lái)沒(méi)有聽(tīng)說(shuō)過(guò)的??傊?,在這里你可以了結到當前各種有效的網(wǎng)站推廣方法。首先你要了解,網(wǎng)站推廣是一個(gè)長(cháng)期而且系統的過(guò)程,需要制定明確的目標和計劃,并做好相應的準備。
一、添加網(wǎng)頁(yè)標題
為每頁(yè)內容寫(xiě) 5 到 8 個(gè)字的描述性標題。標題要簡(jiǎn)練“的”“和”這些不重要的詞匯。要說(shuō)明該頁(yè)面,該網(wǎng)站最重要的內容是什么。網(wǎng)頁(yè)標題將出現在搜索結果頁(yè)面的鏈接上,因此可以寫(xiě)得稍帶煽動(dòng)性,以吸引搜索者點(diǎn)擊該鏈接。同時(shí)在首頁(yè)內容中寫(xiě)上你的公司名和你最重要的關(guān)鍵詞,而不能只是寫(xiě)公司名。網(wǎng)站的每一個(gè)頁(yè)面都應該有針對該頁(yè)面的標題。
二、添加描述性 META 標簽
除了網(wǎng)頁(yè)標題,不少搜索引擎會(huì )搜索到 META 標簽。這是一句說(shuō)明性文字。描述網(wǎng)頁(yè)正文的內容,句中也要包含本頁(yè)使用到的關(guān)鍵詞,詞組等。目前,含關(guān)鍵詞的 META 標簽已經(jīng)對排名幫助不大,但有時(shí) META 標簽會(huì )用于付費登陸技術(shù)中。而且誰(shuí)又知道什么時(shí)候搜索引擎又會(huì )再次重視它呢?
三、在網(wǎng)頁(yè)粗體文字,一般為文章標題中也填上你的關(guān)鍵詞
搜索引擎很重視粗體文字,以為這是本頁(yè)很重要的內容。因此,確保在一二個(gè)粗體文字標簽中寫(xiě)上你的關(guān)鍵詞。要盡量避免將重要的標題都制作成圖片的形式,更不要將整個(gè)首頁(yè)都做成一個(gè)圖片。
四、確保在你的正文第一段就出現關(guān)鍵詞
搜索引擎希望在第一段文字中就找到你的關(guān)鍵詞,但不要充斥過(guò)多關(guān)鍵詞。google 大概將全文每 100 個(gè)字出現 1.5 到 2 個(gè)關(guān)鍵詞視為最佳的關(guān)鍵詞密度,可獲得好排名。其他可考慮放置關(guān)鍵詞的地方可以在代碼的 ALT 或者 COMMEET 標簽里面。如果無(wú)法保證正文第一段出現關(guān)鍵詞,可以考慮一些不救措施,比如給網(wǎng)頁(yè)加一個(gè)批注等等。
五、導航設計要易于搜索引擎搜索
有些人在網(wǎng)頁(yè)制作中使用框架,但是這對于搜索引擎是一個(gè)嚴重的問(wèn)題。即使搜索引擎找到你的內容頁(yè)面,也可能錯過(guò)其中關(guān)鍵性的導航欄目,從而不能進(jìn)入到其他頁(yè)面。用 JAVA和 FLASH 做的導航按鈕看起來(lái)是很漂亮美觀(guān),但是搜索引擎找不到它們。補救的辦法是在頁(yè)面底部用常規 HTML 鏈接再作一個(gè)導航條,確??梢酝ㄟ^(guò)這個(gè)導航條進(jìn)入網(wǎng)站的每一頁(yè)。你還可以做一個(gè)網(wǎng)站地圖,也可以鏈接到每一頁(yè)面。此外,有些內容管理系統和電子商務(wù)目錄運用動(dòng)態(tài)的網(wǎng)頁(yè),這些頁(yè)面的網(wǎng)址后面一般都有一個(gè)問(wèn)號帶上數字,工作過(guò)度的搜索引擎往往在問(wèn)號前停下,不在繼續搜索。對于這種情況??梢酝ㄟ^(guò)更改 URL,付費登陸等手段加以解決。動(dòng)態(tài)站點(diǎn)可以通過(guò)生成靜態(tài)頁(yè)面的技術(shù)方便搜索引擎的抓取。網(wǎng)站地圖要盡量可能鏈接到所有的主要頁(yè)面,并單獨把站點(diǎn)地圖頁(yè)面提交給搜索引擎。多使用 HTML 靜態(tài)網(wǎng)頁(yè),雖然增加了工作量,但可以增加搜索引擎的友好度,從而為獲得好的排名打下基礎。
六、針對某些特別重要的關(guān)鍵詞,專(zhuān)門(mén)做幾個(gè)頁(yè)面
搜索引擎優(yōu)化專(zhuān)家不推薦使用任何針對搜索引擎的欺騙性過(guò)渡頁(yè)面,因為這些幾乎是復制出來(lái)的網(wǎng)頁(yè)可能搜索引擎的懲罰。但可以做幾個(gè)頁(yè)面,每頁(yè)集中包含不同的關(guān)鍵詞或詞組 。例如,無(wú)須在某一頁(yè)上介紹你所有的服務(wù)內容,而是為每種服務(wù)分別作一個(gè)頁(yè)面。這樣,每一頁(yè)都有相對應額關(guān)鍵詞,這些頁(yè)面內容因為包含針對性的關(guān)鍵詞而不是籠統的內容,從而可以提高排名。
七、向搜索引擎提交網(wǎng)頁(yè)
在搜索引擎是找到【ADD YOUR URL】網(wǎng)站登陸的鏈接。搜索引擎將自動(dòng)搜索你提交的網(wǎng)頁(yè)。美國最著(zhù)名的搜索引擎是:google、inktomi、alta、vista、 tehoma。這些搜索引擎向其它主要搜索引擎和門(mén)戶(hù)網(wǎng)站提供搜索內容。在歐洲和其他地區你可以發(fā)布到區域性的搜索引擎。至于花錢(qián)請人幫你提交成千上萬(wàn)的搜索引擎的做法是在白花錢(qián)。也不要在那些 FFA(free for all pages)網(wǎng)站,即所謂將你的網(wǎng)站免費自動(dòng)提交到數百搜索引擎的站點(diǎn)。這類(lèi)提交不僅效果不好,還會(huì )給你帶來(lái)大量的垃圾郵件,并可能導致搜索引擎對你的網(wǎng)頁(yè)進(jìn)行懲罰。也不要使用網(wǎng)站登陸軟件,所謂可以一次性將你的網(wǎng)站提交給數以千計的搜索引擎,其實(shí)不僅是不可能的,也是沒(méi)有實(shí)際價(jià)值的。最重要的是做好網(wǎng)站的優(yōu)化設計,對于主要搜索引擎,采用逐個(gè)手工提交的方式來(lái)進(jìn)行 。對于付費搜索引擎,更不可能依靠軟件來(lái)提交。事實(shí)上,有效的搜索引擎營(yíng)銷(xiāo)策略根本不需要將網(wǎng)站登陸到數以千計的搜索引擎,因為訪(fǎng)問(wèn)量最大的幾個(gè)搜索引擎幾乎集中了 98%以上的訪(fǎng)問(wèn)量,剩下的搜索引擎沒(méi)有多少實(shí)際意義。另外要注意,提交網(wǎng)頁(yè)不應該是一次性的 ,隨著(zhù)內容的更新,應該定期重新提交網(wǎng)頁(yè)。由于網(wǎng)絡(luò )頁(yè)面越來(lái)越多,很多搜索機器人的回訪(fǎng)時(shí)間很長(cháng),定期提交可以讓搜索引擎前來(lái)抓取最新的更新內容。
八、調整主要內容頁(yè)面以提高排名
將你認為最重要的頁(yè)面,或許是首頁(yè)作一些調整,以提高他們的排名。有一些軟件可以讓你檢查當前的排名,比較跟你的關(guān)鍵詞相同的競爭者的網(wǎng)頁(yè)排名,還可以獲得搜索引擎對你的網(wǎng)頁(yè)的首選統計數據,從而對自己的頁(yè)面進(jìn)行調整。你可以使用 webpositiongold 自己做這個(gè)工作,但由于很花時(shí)間,也可以請專(zhuān)業(yè)的公司幫你做。在其他網(wǎng)站做鏈接可以帶來(lái)更多訪(fǎng)問(wèn)量。自從 google 等主要搜索引擎將網(wǎng)站的鏈接廣泛度作為排名參考的重要因素以后,越多網(wǎng)站鏈接你,你的網(wǎng)站排名越高。同時(shí),鏈接的質(zhì)量也是搜索引擎考慮的重要因素。鏈接在訪(fǎng)問(wèn)量高的網(wǎng)站比鏈接在訪(fǎng)問(wèn)量低的網(wǎng)站更有優(yōu)勢。
九、將網(wǎng)站提交到主要的檢索目錄
確保你的網(wǎng)站登陸到免費的 open directory(),這是由人工進(jìn)行登陸審查的網(wǎng)站。該分級目錄為所有主要搜索引擎提供目錄內容提供搜索。google 很看重你的網(wǎng)站是否在這類(lèi)重要的網(wǎng)站有鏈接。yahoo 是另一個(gè)重要的檢索目錄,需要在上面登陸。提示:描述網(wǎng)站的字數最好比規定的最高字數少,不要剛好達到字數限制,以免太長(cháng)的文字描述使得網(wǎng)站審核人員刪除一些句段。目前商業(yè)網(wǎng)站登陸 yahoo 每年要交¥299,最好讓他們在 7個(gè)工作日內就將你的網(wǎng)站登陸上去。其他可以考慮登陸的檢索目錄有 和。國內有很多網(wǎng)站導航站點(diǎn)。例http:// http:// 等等,也能帶來(lái)非常大的流量。即使網(wǎng)絡(luò )營(yíng)銷(xiāo)預算不多,但主要的搜索引擎如新浪,搜虎等也是很有必要登記的。
十、做專(zhuān)業(yè)
將網(wǎng)站登陸到行業(yè)站點(diǎn)和專(zhuān)業(yè)目錄中有一些檢索目錄定位于某個(gè)行業(yè),如教育或金融業(yè)。如果你屬于某個(gè)貿易協(xié)會(huì ),該協(xié)會(huì )集中了諸多會(huì )員站點(diǎn),你可向該協(xié)會(huì )網(wǎng)站申請加入你的站點(diǎn),哪怕付費也是應該的,因為這會(huì )為你帶來(lái)許多目標訪(fǎng)問(wèn)者。除了可以登陸到很多黃頁(yè)類(lèi)網(wǎng)站,到搜索引擎按照你的行業(yè)查找,一定也能找到很多相關(guān)的行業(yè)目錄站點(diǎn),應該盡量登陸這些站點(diǎn)。
十一、請求互換鏈接
尋找一些與你的網(wǎng)站內容互補的站點(diǎn)向對方要求互換鏈接。最理想的鏈接對象是那些與你的網(wǎng)站流量相當的網(wǎng)站。流量太大的網(wǎng)站管理員要應付太多要求互換鏈接的請求,容易將你忽略。小的一些網(wǎng)站頁(yè)可以考慮?;Q鏈接頁(yè)面要放在網(wǎng)站比較偏僻的地方,以免將你的網(wǎng)站訪(fǎng)問(wèn)者很快引向他人的站點(diǎn)。找到可以互換鏈接的網(wǎng)站之后,發(fā)一封個(gè)性化的電郵給對方網(wǎng)站管理,如果對方?jīng)]有回復,再打電話(huà)試一試。一定要關(guān)注對方網(wǎng)站的質(zhì)量,不要片面追求鏈接數量,更不要發(fā)垃圾郵件。
十二、發(fā)表免費文章,附帶站點(diǎn)簽名
免費為其他網(wǎng)站的新聞郵件寫(xiě)一些專(zhuān)業(yè)性文章,文章里用簡(jiǎn)短的文字附帶描述你提供的東西,并請求對方鏈接你的網(wǎng)站。這是一種有效的病毒營(yíng)銷(xiāo)方法,你的文章將作為成千上百的用戶(hù)訂閱信息發(fā)出去,讓你的網(wǎng)站一次性獲得幾百個(gè)鏈接。沒(méi)有自己的原創(chuàng )文章,轉載別人的文章時(shí)一定也要加上自己的鏈接。網(wǎng)下的傳統推廣方法依然奏效。多種手段并用的方法尤其有效。
十三、將你的網(wǎng)址印在信紙、名片、宣傳冊、印刷品上
這種簡(jiǎn)單的方法有時(shí)候卻被忽略了。確保網(wǎng)址拼寫(xiě)正確。建議把 http://部 分省 略,只書(shū)寫(xiě) http://www.****.com/部分。一個(gè)易于記憶的域名有利于網(wǎng)站的推廣,在選擇域名時(shí)一定要仔細考慮。
十四、使用傳統媒體廣告
傳統媒體廣告不應該廢止。無(wú)論是報紙還是雜志廣告,務(wù)必確保在其中展示你的網(wǎng)址。要將查看網(wǎng)站作為廣告的輔助內容,提醒用戶(hù)瀏覽網(wǎng)站將取得更多相關(guān)信息。別忽視在一些定位相對比較狹窄的雜志或者貿易期刊刊登廣告,有時(shí)候這些廣告定位會(huì )更加準確、有效。而且比網(wǎng)絡(luò )廣告更便宜。還有其它傳統方式可增加網(wǎng)站訪(fǎng)問(wèn)量,如直郵、分類(lèi)廣告、明信片等等。電視廣告恐怕更適合于那些銷(xiāo)售大眾化商品的網(wǎng)站。讓網(wǎng)址出現在廣告中顯眼的位置 ,相信比電話(huà)號碼更好記憶
十五、提供免費服務(wù)
人們都喜歡免費的東西。通過(guò)免費信息內容吸引人們訪(fǎng)問(wèn)你的網(wǎng)站,比單純叫人來(lái)訪(fǎng)問(wèn)了解你的業(yè)務(wù)更有效。建立免費資源需要花費時(shí)間和精力,但是對增加訪(fǎng)問(wèn)量非常有效。你提供的免費內容要與你銷(xiāo)售的東西非常接近,這樣你吸引來(lái)得訪(fǎng)問(wèn)者才有可能時(shí)目標潛在客戶(hù),提供免費服務(wù)的同時(shí),網(wǎng)站要提供多種鏈接方式將獲取免費信息的用戶(hù)注意力引導到你銷(xiāo)售的產(chǎn)品部分。免費資源比如:免費郵箱、免費網(wǎng)站登陸、免費發(fā)布信息、能提供具有特色的免費服務(wù)那就更好了。
十六、發(fā)布新聞
尋找具有新聞價(jià)值的事件,比如宣傳你提供免費服務(wù),并將新聞發(fā)布到你所在行業(yè)的印刷期刊和網(wǎng)站期刊上。你可以使用一些網(wǎng)絡(luò )新聞發(fā)布服務(wù)。 新聞推廣總是有效的,這就是為什么傳統媒體會(huì )有那么多企業(yè)的廣告看起來(lái)很像新聞的原因。電子郵件是增加訪(fǎng)問(wèn)量的重要方法,但前提是不能大量發(fā)送未經(jīng)許可的垃圾郵件。
十七、在你發(fā)出的郵件中創(chuàng )建一個(gè)簽名,讓潛在客戶(hù)與你聯(lián)系
大部分的郵件系統都有創(chuàng )建簽名的功能。簽名會(huì )自動(dòng)出現在你發(fā)出去的每封郵件末尾。簽名要限制在 6-8 行之內。包括:公司名稱(chēng)、地址、電話(huà)、網(wǎng)址、電子郵件和一句你的企業(yè)的描述。簽名不要為了漂亮設計為圖片格式,要便于客戶(hù)復制拷貝。
十八、建立郵件列表,定期向用戶(hù)發(fā)送新聞郵件或其他信息
這是與客戶(hù)保持聯(lián)系、建立信任、發(fā)展品牌及建立長(cháng)期關(guān)系的最好方法之一。你可以請網(wǎng)站訪(fǎng)問(wèn)者填寫(xiě)他們的電子郵件地址,從而收取你的新聞郵件。發(fā)送郵件需要采用群發(fā)服務(wù)器,這些在網(wǎng)絡(luò )上有很多。
十九、向郵件列表用戶(hù)發(fā)布產(chǎn)品信息,如優(yōu)惠券,新產(chǎn)品及其其他促銷(xiāo)信息
如果將郵件主題和正文進(jìn)行個(gè)性化處理將獲得更好的效果。郵件主題設計的 5 個(gè)基本原則是:1、體現出郵件內容的精華。2、體現出發(fā)件人信息中無(wú)法包含的內容。3、體現出品牌或者產(chǎn)品信息。4、郵件主題含有豐富的關(guān)鍵詞。5、郵件主題不宜過(guò)于簡(jiǎn)單或者過(guò)于復雜 。
二十、租用目標客戶(hù)郵件列表
這些郵件列表客戶(hù)在郵件列表商的網(wǎng)站注冊的時(shí)候同意接受某些類(lèi)別商業(yè)郵件信息,因此向這些用戶(hù)發(fā)送你的產(chǎn)品信息是合法的,不屬于垃圾郵件。自己用郵址搜索軟件收集電子郵件地址,或者購買(mǎi)電子郵件地址都屬于垃圾郵件,不僅不會(huì )帶來(lái)好處,甚至會(huì )收到懲罰。
二十一、在郵件列表和新聞組中進(jìn)行促銷(xiāo)
許多在某一專(zhuān)業(yè)領(lǐng)域中有著(zhù)共同興趣的人在網(wǎng)絡(luò )上進(jìn)行討論交流,形成成千上萬(wàn)不同領(lǐng)域的新聞組。找到自己領(lǐng)域內的新聞組,不是要在其中公開(kāi)宣傳你的產(chǎn)品或者服務(wù),而是在交流的簽名中留下你的電子郵件地址和網(wǎng)站。當人們逐漸了解并信任你的時(shí)候,他們會(huì )訪(fǎng)問(wèn)你的網(wǎng)站。新聞組在國內應用不多,因此算不上常用的網(wǎng)站推廣方法。論壇和聊天室曾經(jīng)被用來(lái)宣傳產(chǎn)品,但現在很多網(wǎng)站并不歡迎在這些網(wǎng)絡(luò )社區發(fā)布廣告信息,除非有專(zhuān)門(mén)的廣告發(fā)布版塊,否則盡量不要采用這種方式。
二十二、運用競賽
你可以在網(wǎng)站上設計一個(gè)競賽,獎品要能夠吸引那些你最希望獲得的那類(lèi)客戶(hù)。比如將獎品設計為你的產(chǎn)品或一定的購買(mǎi)折扣等等。運用競賽可以有效的吸引更多訪(fǎng)問(wèn)量。如果你的知名度不高,如何讓客戶(hù)知道你開(kāi)展競賽也是一個(gè)問(wèn)題,因此對有些網(wǎng)站這種方式并不適用。
搜索引擎營(yíng)銷(xiāo)核心思路
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2022-05-21 19:30
再不點(diǎn)藍字關(guān)注,機會(huì )就要飛走了哦 搜索引擎目前仍然是最主要的網(wǎng)站推廣手段之一,尤其基于自然搜索結果的搜索引擎推廣,到目前為止 搜索引擎營(yíng)銷(xiāo)四個(gè)目標層次仍然是免費的,因此受到眾多中小網(wǎng)站的重視,搜索引擎營(yíng)銷(xiāo)方法也成為網(wǎng)絡(luò )營(yíng)銷(xiāo)方法體系的主要組成部分。目前對于搜索引擎營(yíng)銷(xiāo)的研究,無(wú)論是對于搜索引擎優(yōu)化還是付費搜索引擎廣告,基本上都處于操作層面,如果要對這些具體的操作方法和技巧歸納為搜索引擎推廣的一般規律時(shí),有必要提出這樣的問(wèn)題:搜索引擎推廣的核心思想是什么? 新競爭力通過(guò)對搜索引擎營(yíng)銷(xiāo)的規律深入研究認為:搜索引擎推廣是基于網(wǎng)站內容的推廣——這就是搜索引擎營(yíng)銷(xiāo)的核心思想。這句話(huà)說(shuō)起來(lái)很簡(jiǎn)單,如果仔細分析會(huì )發(fā)現,這句話(huà)的確包含了搜索引擎推廣的一般規律。本文作者在“網(wǎng)站推廣策略之內容推廣思想漫談”一文中提出一個(gè)觀(guān)點(diǎn):“網(wǎng)站內容不僅是大型ICP網(wǎng)站的生命源泉,對于企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的效果同樣是至關(guān)重要的”。因為網(wǎng)站內容本身也是一種有效的網(wǎng)站推廣手段,只是這種推廣需要借助于搜索引擎這個(gè)信息檢索工具,因此網(wǎng)站內容推廣策略實(shí)際上也就是搜索引擎推廣策略的具體應用。搜索引擎營(yíng)銷(xiāo)的核心思想對網(wǎng)站推廣策略的指導意義“搜索引擎推廣是基于網(wǎng)站有效文字信息的推廣”,這一指導思想對制定網(wǎng)站推廣策略的指導意義表現在幾個(gè)方面:網(wǎng)站推廣需要有效的網(wǎng)站內容網(wǎng)站的有效內容,亦即對網(wǎng)站推廣有價(jià)值的內容。
增加網(wǎng)站內容在的作用首先表現在滿(mǎn)足用戶(hù)獲取信息方面,這是任何網(wǎng)站發(fā)布內容的基本目的,從直接瀏覽者的角度來(lái)看,網(wǎng)上的信息通常并不能完全滿(mǎn)足所有 使用搜索引擎營(yíng)銷(xiāo)的企業(yè)行業(yè)用戶(hù)的需要,每增加一個(gè)網(wǎng)頁(yè)的內容,也就意味著(zhù)為滿(mǎn)足用戶(hù)的信息需求需求增加了一點(diǎn)努力。因此網(wǎng)站內容策略的基本出發(fā)點(diǎn)是可以為用戶(hù)提供有效的信息和服務(wù),這樣,無(wú)論用戶(hù)通過(guò)哪種渠道來(lái)到網(wǎng)站,都可以獲得盡可能詳盡的信息。在滿(mǎn)足用戶(hù)這一基本需求的前提下,網(wǎng)站內容還應考慮到搜索引擎的收錄和檢索規律,這樣可以為用戶(hù)通過(guò)搜索引擎獲取網(wǎng)站信息帶來(lái)更多的機會(huì )。搜索引擎收錄的信息量是以網(wǎng)頁(yè)數為單位的,被收錄的每一個(gè)網(wǎng)頁(yè)都有被用戶(hù)發(fā)現的機會(huì ),也只有被搜索引擎收錄才能獲得搜索引擎推廣的機會(huì )。因此,通過(guò)增加網(wǎng)站內容而實(shí)現網(wǎng)站推廣的策略,本質(zhì)上仍然是搜索引擎推廣方法的一種具體應用形式,應服從于搜索引擎營(yíng)銷(xiāo)的一般原理。網(wǎng)頁(yè)內容是否具有網(wǎng)站推廣的價(jià)值,不僅依賴(lài)于搜索引擎,也取決于用戶(hù)使用搜索引擎的行為,只有做到網(wǎng)頁(yè)內容被搜索引擎收錄,并且在用戶(hù)利用某些關(guān)鍵詞檢索時(shí)出現在檢索結果靠前的位置,才有可能被用戶(hù)發(fā)現并引起進(jìn)一步的興趣。網(wǎng)絡(luò )營(yíng)銷(xiāo)的基本任務(wù)之一就是利用互聯(lián)網(wǎng)手段將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù),網(wǎng)站的內容策略正是實(shí)現這一基本任務(wù)的具體方法之一。
網(wǎng)站內容策略與網(wǎng)站推廣策略密不可分新競爭力的研究認為,網(wǎng)站推廣是個(gè)系統工程,不僅網(wǎng)站建設的專(zhuān)業(yè)水平、網(wǎng)站的功能和結構等因素與網(wǎng)站推廣策略和網(wǎng)站推廣效果直接相關(guān),網(wǎng)站的內容策略同樣直接影響著(zhù)網(wǎng)站推廣的效果。只是在一般網(wǎng)站 搜索引擎營(yíng)銷(xiāo)關(guān)鍵因素推廣策略方面,對網(wǎng)站內容策略的研究比較少,或者很少將網(wǎng)站內容策略與網(wǎng)站推廣策略聯(lián)系起來(lái)??紤]到網(wǎng)站內容對于網(wǎng)站推廣的意義之后,便于協(xié)調網(wǎng)站內容策略與網(wǎng)站推廣策略之間的關(guān)系,兩者均為網(wǎng)絡(luò )營(yíng)銷(xiāo)策略的重要組成部分,應在網(wǎng)絡(luò )營(yíng)銷(xiāo)總體策略層面得到統一。前述分析說(shuō)明,有效的網(wǎng)站內容對于網(wǎng)站推廣策略如此重要,多一個(gè)網(wǎng)頁(yè),只要包含有效關(guān)鍵詞,那么在搜索結果中就多了一次被用戶(hù)發(fā)現的機會(huì ),但是實(shí)際上并不是每個(gè)網(wǎng)站都有很多內容,尤其是用戶(hù)感興趣的內容,因此顯得內容貧乏,這種狀況在許多中小型網(wǎng)站上尤為普遍,好像除了公司簡(jiǎn)介、產(chǎn)品簡(jiǎn)介之外,再沒(méi)有其他內容可以發(fā)布了。那么,應該如何增加網(wǎng)站的有效內容?這正是許多企業(yè)網(wǎng)站面臨的網(wǎng)站推廣難題之一。對此,網(wǎng)上營(yíng)銷(xiāo)新觀(guān)察進(jìn)行的專(zhuān)題研究結論是,增加網(wǎng)站內容的途徑可以從網(wǎng)站內部和外部?jì)蓚€(gè)方面的資源來(lái)考慮增加內容:(1)充分利用內部資源,也就是對網(wǎng)站現有內容的進(jìn)行合理的包裝、優(yōu)化和擴展;(2)合理利用外部資源,包括利用合作伙伴的資源、利用相關(guān)的信息資源,以及將企業(yè)的信息資源通過(guò)其他網(wǎng)站進(jìn)行傳播等
不關(guān)注
就搗蛋
查看全部
搜索引擎營(yíng)銷(xiāo)核心思路
再不點(diǎn)藍字關(guān)注,機會(huì )就要飛走了哦 搜索引擎目前仍然是最主要的網(wǎng)站推廣手段之一,尤其基于自然搜索結果的搜索引擎推廣,到目前為止 搜索引擎營(yíng)銷(xiāo)四個(gè)目標層次仍然是免費的,因此受到眾多中小網(wǎng)站的重視,搜索引擎營(yíng)銷(xiāo)方法也成為網(wǎng)絡(luò )營(yíng)銷(xiāo)方法體系的主要組成部分。目前對于搜索引擎營(yíng)銷(xiāo)的研究,無(wú)論是對于搜索引擎優(yōu)化還是付費搜索引擎廣告,基本上都處于操作層面,如果要對這些具體的操作方法和技巧歸納為搜索引擎推廣的一般規律時(shí),有必要提出這樣的問(wèn)題:搜索引擎推廣的核心思想是什么? 新競爭力通過(guò)對搜索引擎營(yíng)銷(xiāo)的規律深入研究認為:搜索引擎推廣是基于網(wǎng)站內容的推廣——這就是搜索引擎營(yíng)銷(xiāo)的核心思想。這句話(huà)說(shuō)起來(lái)很簡(jiǎn)單,如果仔細分析會(huì )發(fā)現,這句話(huà)的確包含了搜索引擎推廣的一般規律。本文作者在“網(wǎng)站推廣策略之內容推廣思想漫談”一文中提出一個(gè)觀(guān)點(diǎn):“網(wǎng)站內容不僅是大型ICP網(wǎng)站的生命源泉,對于企業(yè)網(wǎng)站網(wǎng)絡(luò )營(yíng)銷(xiāo)的效果同樣是至關(guān)重要的”。因為網(wǎng)站內容本身也是一種有效的網(wǎng)站推廣手段,只是這種推廣需要借助于搜索引擎這個(gè)信息檢索工具,因此網(wǎng)站內容推廣策略實(shí)際上也就是搜索引擎推廣策略的具體應用。搜索引擎營(yíng)銷(xiāo)的核心思想對網(wǎng)站推廣策略的指導意義“搜索引擎推廣是基于網(wǎng)站有效文字信息的推廣”,這一指導思想對制定網(wǎng)站推廣策略的指導意義表現在幾個(gè)方面:網(wǎng)站推廣需要有效的網(wǎng)站內容網(wǎng)站的有效內容,亦即對網(wǎng)站推廣有價(jià)值的內容。
增加網(wǎng)站內容在的作用首先表現在滿(mǎn)足用戶(hù)獲取信息方面,這是任何網(wǎng)站發(fā)布內容的基本目的,從直接瀏覽者的角度來(lái)看,網(wǎng)上的信息通常并不能完全滿(mǎn)足所有 使用搜索引擎營(yíng)銷(xiāo)的企業(yè)行業(yè)用戶(hù)的需要,每增加一個(gè)網(wǎng)頁(yè)的內容,也就意味著(zhù)為滿(mǎn)足用戶(hù)的信息需求需求增加了一點(diǎn)努力。因此網(wǎng)站內容策略的基本出發(fā)點(diǎn)是可以為用戶(hù)提供有效的信息和服務(wù),這樣,無(wú)論用戶(hù)通過(guò)哪種渠道來(lái)到網(wǎng)站,都可以獲得盡可能詳盡的信息。在滿(mǎn)足用戶(hù)這一基本需求的前提下,網(wǎng)站內容還應考慮到搜索引擎的收錄和檢索規律,這樣可以為用戶(hù)通過(guò)搜索引擎獲取網(wǎng)站信息帶來(lái)更多的機會(huì )。搜索引擎收錄的信息量是以網(wǎng)頁(yè)數為單位的,被收錄的每一個(gè)網(wǎng)頁(yè)都有被用戶(hù)發(fā)現的機會(huì ),也只有被搜索引擎收錄才能獲得搜索引擎推廣的機會(huì )。因此,通過(guò)增加網(wǎng)站內容而實(shí)現網(wǎng)站推廣的策略,本質(zhì)上仍然是搜索引擎推廣方法的一種具體應用形式,應服從于搜索引擎營(yíng)銷(xiāo)的一般原理。網(wǎng)頁(yè)內容是否具有網(wǎng)站推廣的價(jià)值,不僅依賴(lài)于搜索引擎,也取決于用戶(hù)使用搜索引擎的行為,只有做到網(wǎng)頁(yè)內容被搜索引擎收錄,并且在用戶(hù)利用某些關(guān)鍵詞檢索時(shí)出現在檢索結果靠前的位置,才有可能被用戶(hù)發(fā)現并引起進(jìn)一步的興趣。網(wǎng)絡(luò )營(yíng)銷(xiāo)的基本任務(wù)之一就是利用互聯(lián)網(wǎng)手段將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù),網(wǎng)站的內容策略正是實(shí)現這一基本任務(wù)的具體方法之一。
網(wǎng)站內容策略與網(wǎng)站推廣策略密不可分新競爭力的研究認為,網(wǎng)站推廣是個(gè)系統工程,不僅網(wǎng)站建設的專(zhuān)業(yè)水平、網(wǎng)站的功能和結構等因素與網(wǎng)站推廣策略和網(wǎng)站推廣效果直接相關(guān),網(wǎng)站的內容策略同樣直接影響著(zhù)網(wǎng)站推廣的效果。只是在一般網(wǎng)站 搜索引擎營(yíng)銷(xiāo)關(guān)鍵因素推廣策略方面,對網(wǎng)站內容策略的研究比較少,或者很少將網(wǎng)站內容策略與網(wǎng)站推廣策略聯(lián)系起來(lái)??紤]到網(wǎng)站內容對于網(wǎng)站推廣的意義之后,便于協(xié)調網(wǎng)站內容策略與網(wǎng)站推廣策略之間的關(guān)系,兩者均為網(wǎng)絡(luò )營(yíng)銷(xiāo)策略的重要組成部分,應在網(wǎng)絡(luò )營(yíng)銷(xiāo)總體策略層面得到統一。前述分析說(shuō)明,有效的網(wǎng)站內容對于網(wǎng)站推廣策略如此重要,多一個(gè)網(wǎng)頁(yè),只要包含有效關(guān)鍵詞,那么在搜索結果中就多了一次被用戶(hù)發(fā)現的機會(huì ),但是實(shí)際上并不是每個(gè)網(wǎng)站都有很多內容,尤其是用戶(hù)感興趣的內容,因此顯得內容貧乏,這種狀況在許多中小型網(wǎng)站上尤為普遍,好像除了公司簡(jiǎn)介、產(chǎn)品簡(jiǎn)介之外,再沒(méi)有其他內容可以發(fā)布了。那么,應該如何增加網(wǎng)站的有效內容?這正是許多企業(yè)網(wǎng)站面臨的網(wǎng)站推廣難題之一。對此,網(wǎng)上營(yíng)銷(xiāo)新觀(guān)察進(jìn)行的專(zhuān)題研究結論是,增加網(wǎng)站內容的途徑可以從網(wǎng)站內部和外部?jì)蓚€(gè)方面的資源來(lái)考慮增加內容:(1)充分利用內部資源,也就是對網(wǎng)站現有內容的進(jìn)行合理的包裝、優(yōu)化和擴展;(2)合理利用外部資源,包括利用合作伙伴的資源、利用相關(guān)的信息資源,以及將企業(yè)的信息資源通過(guò)其他網(wǎng)站進(jìn)行傳播等
不關(guān)注
就搗蛋
搜索引擎框架介紹
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-05-21 02:21
歡迎將公眾號設置為星標,技術(shù)文章第一時(shí)間看到。我們將一如既往精選技術(shù)好文,提供有價(jià)值的閱讀。如果文章對你有幫助,歡迎點(diǎn)個(gè)在看鼓勵作者。
技術(shù)經(jīng)驗交流:
一、搜索引擎基礎介紹1. 什么是搜索引擎
搜索引擎,通常指的是收集了萬(wàn)維網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數據庫的全文搜索引擎。當用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結果被搜出來(lái)。再經(jīng)過(guò)復雜的算法進(jìn)行排序(或者包含商業(yè)化的競價(jià)排名、商業(yè)推廣或者廣告)后,這些結果將按照與搜索關(guān)鍵詞的相關(guān)度高低(或與相關(guān)度毫無(wú)關(guān)系),依次排列。
2. 傳統的搜索與搜索引擎對比
2.1 傳統做法
?。?)文檔中使用系統的Find查找
?。?)mysql中使用like模糊查詢(xún)
存在問(wèn)題:
?。?)海量數據中不能及時(shí)響應,少量數據可以通過(guò)傳統的MySql建立索引解決
?。?)一些無(wú)用詞不能進(jìn)行過(guò)濾,沒(méi)法分詞
?。?)數據量大的話(huà)難以拓展
?。?)相同的數據難以進(jìn)行相似度最高的進(jìn)行排序
2.2 搜索引擎做法
?。?)存儲非結構化的數據
?。?)快速檢索和響應我們需要的信息,快-準
?。?)進(jìn)行相關(guān)性的排序,過(guò)濾等
?。?)可以去掉停用詞(沒(méi)有特殊含義的詞,比如英文的a,is等,中文: 這,的,是等),框架一般支持可以自定義停用詞
二、常見(jiàn)搜索引擎框架介紹與比較1. Java 全文搜索引擎框架 Lucene
1.1 簡(jiǎn)介
Lucene的開(kāi)發(fā)語(yǔ)言是Java,也是Java家族中最為出名的一個(gè)開(kāi)源搜索引擎,在Java世界中已經(jīng)是標準的全文檢索程序,它提供了完整的查詢(xún)引擎和索引引擎,沒(méi)有中文分詞引擎,需要自己去實(shí)現,因此用Lucene去做一個(gè)搜素引擎需要自己去架構,另外它不支持實(shí)時(shí)搜索。但是solr和elasticsearch都是基于Lucene封裝。
1.2 優(yōu)點(diǎn)
成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續快速的進(jìn)步。龐大而活躍的開(kāi)發(fā)社區,大量的開(kāi)發(fā)人員。它只是一個(gè)類(lèi)庫,有足夠的定制和優(yōu)化空間:經(jīng)過(guò)簡(jiǎn)單定制,就可以滿(mǎn)足絕大部分常見(jiàn)的需求;經(jīng)過(guò)優(yōu)化,可以支持 10億+ 量級的搜索。
1.3 缺點(diǎn)
需要額外的開(kāi)發(fā)工作。所有的擴展,分布式,可靠性等都需要自己實(shí)現;非實(shí)時(shí),從建索引到可以搜索中間有一個(gè)時(shí)間延遲,而當前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴展性有待進(jìn)一步完善.
2. Apache Solr
2.1 簡(jiǎn)介
Solr是一個(gè)高性能,采用Java開(kāi)發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過(guò)Http利用XML加到一個(gè)搜索集合中。查詢(xún)該集合也是通過(guò) http收到一個(gè)XML/JSON響應來(lái)實(shí)現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過(guò)索引復制來(lái)提高可用性,提 供一套強大Data Schema來(lái)定義字段,類(lèi)型和設置文本分析,提供基于Web的管理界面等。
2.2 優(yōu)點(diǎn)
?。?)Solr有一個(gè)更大、更成熟的用戶(hù)、開(kāi)發(fā)和貢獻者社區。
?。?)支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
?。?)Solr比較成熟、穩定。
?。?)不考慮建索引的同時(shí)進(jìn)行搜索,速度更快。
2.3 缺點(diǎn)
建立索引時(shí),搜索效率下降,實(shí)時(shí)索引搜索效率不高
3. Elastic Search
3.1 簡(jiǎn)介
ElasticSearch是一個(gè)基于Lucene構建的開(kāi)源,分布式,RESTful搜索引擎。設計用于云計算中,能夠達到實(shí)時(shí)搜索,穩定,可靠,快速,安裝使用方便。支持通過(guò)HTTP使用JSON進(jìn)行數據索引。
3.2 優(yōu)點(diǎn)
?。?)Elasticsearch是分布式的。不需要其他組件,分發(fā)是實(shí)時(shí)的,被叫做”P(pán)ush replication”。
?。?)Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。
?。?)處理多租戶(hù)(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。
?。?)Elasticsearch 采用 Gateway 的概念,使得完備份更加簡(jiǎn)單。
各節點(diǎn)組成對等的網(wǎng)絡(luò )結構,某些節點(diǎn)出現故障時(shí)會(huì )自動(dòng)分配其他節點(diǎn)代替其進(jìn)行工作。
3.3 缺點(diǎn)
還不夠自動(dòng)(不適合當前新的Index Warmup API)
4. Elasticsearch 與 Solr 的比較總結
?。?)二者安裝都很簡(jiǎn)單
?。?)Solr 利用 Zookeeper 進(jìn)行分布式管理,而 Elasticsearch 自身帶有分布式協(xié)調管理功能;
?。?)Solr 支持更多格式的數據,而 Elasticsearch 僅支持json文件格式;
?。?)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;
?。?)Solr 在傳統的搜索應用中表現好于 Elasticsearch,但在處理實(shí)時(shí)搜索應用時(shí)效率明顯低于 Elasticsearch。
?。?)總之,Solr 是傳統搜索應用的有力解決方案,但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應用。
5. Sphinx
5.1 簡(jiǎn)介
Sphinx一個(gè)基于SQL的全文檢索引擎,特別為一些腳本語(yǔ)言(PHP,Python,Perl,Ruby)設計搜索API接口。
Sphinx是一個(gè)用C++語(yǔ)言寫(xiě)的開(kāi)源搜索引擎,也是現在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優(yōu)于Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索,使用起來(lái)比較簡(jiǎn)單方便.
Sphinx可以非常容易的與SQL數據庫和腳本語(yǔ)言集成。當前系統內置MySQL和PostgreSQL 數據庫數據源的支持,也支持從標準輸入讀取特定格式 的XML數據。通過(guò)修改源代碼,用戶(hù)可以自行增加新的數據源(例如:其他類(lèi)型的DBMS 的原生支持)
5.2 特點(diǎn)
?。?)高速的建立索引(在當代CPU上,峰值性能可達到10 MB/秒);
?。?)高性能的搜索(在2 – 4GB 的文本數據上,平均每次檢索響應時(shí)間小于0.1秒);
?。?)可處理海量數據(目前已知可以處理超過(guò)100 GB的文本數據, 在單一CPU的系統上可 處理100 M 文檔);
?。?)提供了優(yōu)秀的相關(guān)度算法,基于短語(yǔ)相似度和統計(BM25)的復合Ranking方法;
?。?)支持分布式搜索;
?。?)支持短語(yǔ)搜索
?。?)提供文檔摘要生成
?。?)可作為MySQL的存儲引擎提供搜索服務(wù);
?。?)支持布爾、短語(yǔ)、詞語(yǔ)相似度等多種檢索模式;
?。?0)文檔支持多個(gè)全文檢索字段(最大不超過(guò)32個(gè));
?。?1)文檔支持多個(gè)額外的屬性信息(例如:分組信息,時(shí)間戳等);
?。?2)支持斷詞;
6. Katta
6.1 簡(jiǎn)介
基于 Lucene 的,支持分布式,可擴展,具有容錯功能,準實(shí)時(shí)的搜索方案。
6.2 優(yōu)點(diǎn)
開(kāi)箱即用,可以與 Hadoop 配合實(shí)現分布式。具備擴展和容錯機制。
6.3 缺點(diǎn)
只是搜索方案,建索引部分還是需要自己實(shí)現。在搜索功能上,只實(shí)現了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分布式,對于一些復雜的查詢(xún)需求,定制的難度會(huì )比較大。
三、參考文章 查看全部
搜索引擎框架介紹
歡迎將公眾號設置為星標,技術(shù)文章第一時(shí)間看到。我們將一如既往精選技術(shù)好文,提供有價(jià)值的閱讀。如果文章對你有幫助,歡迎點(diǎn)個(gè)在看鼓勵作者。
技術(shù)經(jīng)驗交流:
一、搜索引擎基礎介紹1. 什么是搜索引擎
搜索引擎,通常指的是收集了萬(wàn)維網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數據庫的全文搜索引擎。當用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結果被搜出來(lái)。再經(jīng)過(guò)復雜的算法進(jìn)行排序(或者包含商業(yè)化的競價(jià)排名、商業(yè)推廣或者廣告)后,這些結果將按照與搜索關(guān)鍵詞的相關(guān)度高低(或與相關(guān)度毫無(wú)關(guān)系),依次排列。
2. 傳統的搜索與搜索引擎對比
2.1 傳統做法
?。?)文檔中使用系統的Find查找
?。?)mysql中使用like模糊查詢(xún)
存在問(wèn)題:
?。?)海量數據中不能及時(shí)響應,少量數據可以通過(guò)傳統的MySql建立索引解決
?。?)一些無(wú)用詞不能進(jìn)行過(guò)濾,沒(méi)法分詞
?。?)數據量大的話(huà)難以拓展
?。?)相同的數據難以進(jìn)行相似度最高的進(jìn)行排序
2.2 搜索引擎做法
?。?)存儲非結構化的數據
?。?)快速檢索和響應我們需要的信息,快-準
?。?)進(jìn)行相關(guān)性的排序,過(guò)濾等
?。?)可以去掉停用詞(沒(méi)有特殊含義的詞,比如英文的a,is等,中文: 這,的,是等),框架一般支持可以自定義停用詞
二、常見(jiàn)搜索引擎框架介紹與比較1. Java 全文搜索引擎框架 Lucene
1.1 簡(jiǎn)介
Lucene的開(kāi)發(fā)語(yǔ)言是Java,也是Java家族中最為出名的一個(gè)開(kāi)源搜索引擎,在Java世界中已經(jīng)是標準的全文檢索程序,它提供了完整的查詢(xún)引擎和索引引擎,沒(méi)有中文分詞引擎,需要自己去實(shí)現,因此用Lucene去做一個(gè)搜素引擎需要自己去架構,另外它不支持實(shí)時(shí)搜索。但是solr和elasticsearch都是基于Lucene封裝。
1.2 優(yōu)點(diǎn)
成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續快速的進(jìn)步。龐大而活躍的開(kāi)發(fā)社區,大量的開(kāi)發(fā)人員。它只是一個(gè)類(lèi)庫,有足夠的定制和優(yōu)化空間:經(jīng)過(guò)簡(jiǎn)單定制,就可以滿(mǎn)足絕大部分常見(jiàn)的需求;經(jīng)過(guò)優(yōu)化,可以支持 10億+ 量級的搜索。
1.3 缺點(diǎn)
需要額外的開(kāi)發(fā)工作。所有的擴展,分布式,可靠性等都需要自己實(shí)現;非實(shí)時(shí),從建索引到可以搜索中間有一個(gè)時(shí)間延遲,而當前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴展性有待進(jìn)一步完善.
2. Apache Solr
2.1 簡(jiǎn)介
Solr是一個(gè)高性能,采用Java開(kāi)發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過(guò)Http利用XML加到一個(gè)搜索集合中。查詢(xún)該集合也是通過(guò) http收到一個(gè)XML/JSON響應來(lái)實(shí)現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過(guò)索引復制來(lái)提高可用性,提 供一套強大Data Schema來(lái)定義字段,類(lèi)型和設置文本分析,提供基于Web的管理界面等。
2.2 優(yōu)點(diǎn)
?。?)Solr有一個(gè)更大、更成熟的用戶(hù)、開(kāi)發(fā)和貢獻者社區。
?。?)支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
?。?)Solr比較成熟、穩定。
?。?)不考慮建索引的同時(shí)進(jìn)行搜索,速度更快。
2.3 缺點(diǎn)
建立索引時(shí),搜索效率下降,實(shí)時(shí)索引搜索效率不高
3. Elastic Search
3.1 簡(jiǎn)介
ElasticSearch是一個(gè)基于Lucene構建的開(kāi)源,分布式,RESTful搜索引擎。設計用于云計算中,能夠達到實(shí)時(shí)搜索,穩定,可靠,快速,安裝使用方便。支持通過(guò)HTTP使用JSON進(jìn)行數據索引。
3.2 優(yōu)點(diǎn)
?。?)Elasticsearch是分布式的。不需要其他組件,分發(fā)是實(shí)時(shí)的,被叫做”P(pán)ush replication”。
?。?)Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。
?。?)處理多租戶(hù)(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。
?。?)Elasticsearch 采用 Gateway 的概念,使得完備份更加簡(jiǎn)單。
各節點(diǎn)組成對等的網(wǎng)絡(luò )結構,某些節點(diǎn)出現故障時(shí)會(huì )自動(dòng)分配其他節點(diǎn)代替其進(jìn)行工作。
3.3 缺點(diǎn)
還不夠自動(dòng)(不適合當前新的Index Warmup API)
4. Elasticsearch 與 Solr 的比較總結
?。?)二者安裝都很簡(jiǎn)單
?。?)Solr 利用 Zookeeper 進(jìn)行分布式管理,而 Elasticsearch 自身帶有分布式協(xié)調管理功能;
?。?)Solr 支持更多格式的數據,而 Elasticsearch 僅支持json文件格式;
?。?)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;
?。?)Solr 在傳統的搜索應用中表現好于 Elasticsearch,但在處理實(shí)時(shí)搜索應用時(shí)效率明顯低于 Elasticsearch。
?。?)總之,Solr 是傳統搜索應用的有力解決方案,但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應用。
5. Sphinx
5.1 簡(jiǎn)介
Sphinx一個(gè)基于SQL的全文檢索引擎,特別為一些腳本語(yǔ)言(PHP,Python,Perl,Ruby)設計搜索API接口。
Sphinx是一個(gè)用C++語(yǔ)言寫(xiě)的開(kāi)源搜索引擎,也是現在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優(yōu)于Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索,使用起來(lái)比較簡(jiǎn)單方便.
Sphinx可以非常容易的與SQL數據庫和腳本語(yǔ)言集成。當前系統內置MySQL和PostgreSQL 數據庫數據源的支持,也支持從標準輸入讀取特定格式 的XML數據。通過(guò)修改源代碼,用戶(hù)可以自行增加新的數據源(例如:其他類(lèi)型的DBMS 的原生支持)
5.2 特點(diǎn)
?。?)高速的建立索引(在當代CPU上,峰值性能可達到10 MB/秒);
?。?)高性能的搜索(在2 – 4GB 的文本數據上,平均每次檢索響應時(shí)間小于0.1秒);
?。?)可處理海量數據(目前已知可以處理超過(guò)100 GB的文本數據, 在單一CPU的系統上可 處理100 M 文檔);
?。?)提供了優(yōu)秀的相關(guān)度算法,基于短語(yǔ)相似度和統計(BM25)的復合Ranking方法;
?。?)支持分布式搜索;
?。?)支持短語(yǔ)搜索
?。?)提供文檔摘要生成
?。?)可作為MySQL的存儲引擎提供搜索服務(wù);
?。?)支持布爾、短語(yǔ)、詞語(yǔ)相似度等多種檢索模式;
?。?0)文檔支持多個(gè)全文檢索字段(最大不超過(guò)32個(gè));
?。?1)文檔支持多個(gè)額外的屬性信息(例如:分組信息,時(shí)間戳等);
?。?2)支持斷詞;
6. Katta
6.1 簡(jiǎn)介
基于 Lucene 的,支持分布式,可擴展,具有容錯功能,準實(shí)時(shí)的搜索方案。
6.2 優(yōu)點(diǎn)
開(kāi)箱即用,可以與 Hadoop 配合實(shí)現分布式。具備擴展和容錯機制。
6.3 缺點(diǎn)
只是搜索方案,建索引部分還是需要自己實(shí)現。在搜索功能上,只實(shí)現了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分布式,對于一些復雜的查詢(xún)需求,定制的難度會(huì )比較大。
三、參考文章
聊聊搜索引擎--網(wǎng)頁(yè)處理篇
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2022-05-21 02:21
前面的一篇文章發(fā)得有點(diǎn)匆忙,主要是想在大家過(guò)節前發(fā)一篇,別浪費了公眾號的發(fā)送次數。上文《》談的是爬蟲(chóng)部分。文章里提到之前寫(xiě)過(guò)兩篇有關(guān)搜索的文章,忘了鏈接過(guò)去了,這里放一下,方便有興趣的讀者閱讀。
《》
《》
前文提到,搜索引擎一般可以分為爬蟲(chóng)模塊,網(wǎng)頁(yè)處理,索引模塊,檢索模塊,排序模塊幾個(gè)模塊。爬蟲(chóng)負責抓取數據,算是數據生產(chǎn)方。今天我們要說(shuō)的是數據的加工部門(mén)。也就是網(wǎng)頁(yè)處理。
網(wǎng)頁(yè)處理在大部分介紹里,都算在爬蟲(chóng)部分。我呆過(guò)的第一家公司,并沒(méi)有網(wǎng)頁(yè)處理相關(guān)的小組。我當時(shí)基本上算是最主要的網(wǎng)頁(yè)處理工程師了,寫(xiě)了包括網(wǎng)頁(yè)解析基礎庫,各種網(wǎng)頁(yè)里的質(zhì)量信號的抽取等。不過(guò)我呆過(guò)的第二家搜索公司,當時(shí)有一個(gè)小組是專(zhuān)門(mén)做網(wǎng)頁(yè)解析的。當然,本文要談的不局限于網(wǎng)頁(yè)解析,而是在索引之前的搜索特征提取。在我做搜索的時(shí)候,機器學(xué)習還沒(méi)那么火,我們一般叫質(zhì)量信號之類(lèi)的。但是這些質(zhì)量信號,主要是服務(wù)排序的,排序作為一個(gè)機器學(xué)習任務(wù),使用到的因素,我們稱(chēng)之為特征比較好理解。而網(wǎng)頁(yè)解析等大部分工作,可以看成網(wǎng)頁(yè)排序這個(gè)復雜Task的特征工程。
Index pipeline
在一個(gè)網(wǎng)頁(yè)搜索中,完整的index pipeline 很復雜,涉及到死鏈檢測,soft 404頁(yè)面檢測,標題抽取,正文抽取,網(wǎng)頁(yè)發(fā)布時(shí)間抽取,結構化信息抽?。ū热缯搲母鱾€(gè)帖子的內容,作者,時(shí)間等。再比如電影的導演,主演,名字,別名等),host rank 計算,page rank計算,色情頁(yè)面檢測,垃圾頁(yè)面檢測,作弊網(wǎng)頁(yè)檢測,重復頁(yè)面檢測,病毒頁(yè)面檢測等等。
Html Parser
那么要完成這么多的搜索排序的特征工程,首先我們需要打造一個(gè)方便易用的網(wǎng)頁(yè)解析庫。一般我們會(huì )實(shí)現一個(gè)html parser, 基本DomTree 或者是SAX。編寫(xiě)一個(gè)這樣的引擎并不容易。解析一個(gè)網(wǎng)頁(yè)比較容易,但是要能夠解析幾千億的網(wǎng)頁(yè)而不crash,并且碰到網(wǎng)頁(yè)很大(比如超過(guò)2M),或者網(wǎng)頁(yè)很病態(tài)(比如只有open tag, 沒(méi)有close tag),解析的速度還能夠很快,并且內存依然不會(huì )爆掉,需要對這個(gè)網(wǎng)頁(yè)解析庫進(jìn)行千錘百煉。當然,網(wǎng)上已經(jīng)有了不少開(kāi)源的解析庫了。不過(guò)大部分情況是這樣的,要不接口不友好,要不性能糟糕,要么代碼風(fēng)格不好。之前谷歌也開(kāi)源了一個(gè)網(wǎng)頁(yè)解析的項目,我們測試下來(lái),性能實(shí)在是跟不上,不太適合搜索引擎。
Xpath
網(wǎng)頁(yè)解析除了html parser ,一般還需要方便工程師進(jìn)行網(wǎng)頁(yè)信息抽取,最好是基于配置文件進(jìn)行抽取,因此一般需要支持xpath 查詢(xún)語(yǔ)言。Xpath 的資料網(wǎng)上很豐富,大家有興趣可以結合XML語(yǔ)言去學(xué)習了解。那如何高效支持 Xpath 進(jìn)行信息抽取,甚至基于整個(gè)配置文件來(lái)抽取某一類(lèi)網(wǎng)頁(yè),甚至某一類(lèi)網(wǎng)站的多種信息抽取,就又有更高level的需求了,比如是否實(shí)現一個(gè)template config parser 之類(lèi)的解析庫。 核心訴求是,配置規則很簡(jiǎn)單,方便易學(xué),甚至可以找一些三四千塊錢(qián)的編輯就可以進(jìn)行配置。那么怎么把這個(gè)庫實(shí)現得優(yōu)雅高效,方便易學(xué),甚至如何開(kāi)發(fā)出一些配套的瀏覽器工具,便是這塊的核心競爭力。據我所知,百度等搜索公司對這方面都花了不少研發(fā)精力。
網(wǎng)頁(yè)解析這里有一個(gè)核心競爭力在于,如何利用你的工程能力,對網(wǎng)頁(yè)解析庫這樣底層的基礎工具進(jìn)行性能優(yōu)化,比如優(yōu)化個(gè)10-20%,或者優(yōu)化了三五倍的性能出來(lái),那整體的搜索引擎相關(guān)的計算集群資源,就能得到很大的改進(jìn),省出來(lái)的銀子,不見(jiàn)得比索引性能優(yōu)化,或者是檢索性能優(yōu)化,或者是各種機器學(xué)習模型的排序性能優(yōu)化來(lái)得少。
CSS Parser
網(wǎng)頁(yè)解析還有好幾個(gè)有挑戰的事情,比如要解析出來(lái)網(wǎng)頁(yè)里字體的大?。ㄗ煮w很小也是作弊的手段之一),顏色(顏色搞成和背景色一樣,也是作弊的手段之一),或者是文字是否可見(jiàn)(常規的作弊手段之一)等,都是需要比較高階的解析的。如果學(xué)過(guò)網(wǎng)頁(yè)設計,大家應該知道這塊需要對CSS進(jìn)行解析。CSS一般分為tag 內部的,html 文件內的,外部CSS文件等。那么如何高效地進(jìn)行CSS文件,并與HTML解析結果進(jìn)行結合,就有不少工作值得深入。
此外,CSS文件的壓縮和存儲/讀取,也有一定的挑戰。原因在于,不像html 這樣,大部分網(wǎng)頁(yè)的內容差異都比較大,CSS 一般是給一個(gè)網(wǎng)站,或者是一類(lèi)風(fēng)格的網(wǎng)頁(yè)設計的,文件的規模比較少。有一些建站工具做出來(lái)的,甚至大部分CSS都一樣。既然CSS文件的內容有特殊的規律,那么針對CSS的壓縮,可能就會(huì )存在特殊的算法。還有一個(gè)問(wèn)題是,網(wǎng)頁(yè)的內容可能不會(huì )變,但是網(wǎng)頁(yè)的風(fēng)格卻可能會(huì )被更新。在網(wǎng)頁(yè)解析的時(shí)候,往往一次性分析百億級別的網(wǎng)頁(yè),那如何高效讀取各個(gè)網(wǎng)頁(yè)對應的CSS文件呢?實(shí)時(shí)抓取么?還是存在mysql ? Nosql ? 還是怎么去特殊處理?
CSS 文件怎么解析呢? 也有不少開(kāi)源的項目,當然也可以參考各大瀏覽器開(kāi)源項目。不過(guò)瀏覽器項目里一般代碼依賴(lài)比較復雜,很難單獨抽取出來(lái)。
Javascript
其實(shí)這部分放在爬蟲(chóng)部分更合適。在抓取的時(shí)候,往往會(huì )碰到頁(yè)面跳轉,或者是有一部分關(guān)鍵的網(wǎng)頁(yè)內容,是在頁(yè)面本身加載完畢后,才開(kāi)始動(dòng)態(tài)加載的。比如做新聞的Hub頁(yè)抓取的時(shí)候,往往會(huì )發(fā)現我們想要的新聞內容頁(yè)的鏈接信息,是通過(guò) js 來(lái)生成的。那怎么辦?如果只是抓取一個(gè)網(wǎng)站,當然我們可以通過(guò)抓包分析,靠人工來(lái)總結瀏覽器背后的網(wǎng)絡(luò )行為,然后寫(xiě)代碼模擬瀏覽器的行為。通用點(diǎn)的,公司內搭建或者開(kāi)發(fā)一套瀏覽器抓取的方案,特殊的網(wǎng)頁(yè),都使用這些特殊的抓取服務(wù)來(lái)抓,這樣在下游做網(wǎng)頁(yè)解析的時(shí)候,看到的 html 都是一樣帶有我們想要抽取的頁(yè)面內容的了。
之所以放在這部分,很簡(jiǎn)單,js 是一門(mén)腳本語(yǔ)言,腳本語(yǔ)言的執行,其實(shí)也可以看成解析引擎在跑,只是這里的解析是腳本語(yǔ)言,而不是HTML 或者 XML 這樣的標記語(yǔ)言。
網(wǎng)頁(yè)特征抽取
不僅是搜索排序需要網(wǎng)頁(yè)特征抽取,掛在網(wǎng)頁(yè)里的廣告系統,也需要使用到網(wǎng)頁(yè)相關(guān)的信息,以判定哪些網(wǎng)頁(yè)和哪些商業(yè)關(guān)鍵詞更相關(guān)。
那么前面提到的特種網(wǎng)頁(yè)特征,活學(xué)活用上面提到的一些解析引擎就差不多了。當然做這個(gè)工作,很多時(shí)候需要有一雙善于觀(guān)察的眼睛。主要是幾個(gè)原因:
和網(wǎng)頁(yè)處理相關(guān)的話(huà)題,其中有一個(gè)是非常重要的,一個(gè)是page rank, host rank, 一個(gè)是反作弊。Pagerank 的資料網(wǎng)上可以說(shuō)是汗牛充棟了,谷歌和百度的創(chuàng )始人們,也都有這方面的論文或者專(zhuān)利。感興趣的讀者建議直接找一些相關(guān)的論文來(lái)閱讀。
反作弊和SEO
說(shuō)到反作弊,有興趣的可以看谷歌反作弊工程師的博客。網(wǎng)址忘了,自己搜索。業(yè)界很多做SEO的人,據說(shuō)都會(huì )去閱讀上面的文章并做各種研究。反作弊和作弊這個(gè)事兒,和信息安全與病毒的關(guān)系差不多,因為作弊能夠帶來(lái)商業(yè)上的好處,所以商業(yè)搜索引擎和作弊者的斗爭永遠沒(méi)有結束的時(shí)候。道高一尺魔高一丈,這會(huì )這些作弊的策略騙過(guò)了搜索引擎,明天可能就整站被下掉了。
說(shuō)過(guò)反作弊和SEO,往往外面的人覺(jué)得做搜索引擎開(kāi)發(fā)的工程師都有特權,知道怎么去操縱網(wǎng)頁(yè)的權重,其實(shí)都是想多了。一來(lái),這事兒不是誰(shuí)都懂,二來(lái),這事兒關(guān)乎職場(chǎng)道德,三來(lái),這事兒值錢(qián)的話(huà),我為啥免費給你干?
當然,反作弊的工作,往往也會(huì )干倒一大批,誤傷三五家。我身邊就有幾個(gè)朋友曾經(jīng)碰到類(lèi)似的情況,托我幫找朋友去解決問(wèn)題。
反作弊的話(huà)題和SEO的話(huà)題都挺大的,我自己也不太刪除。SEO之前曾經(jīng)閱讀過(guò)一本專(zhuān)著(zhù),好像是新加坡的一個(gè)哥們寫(xiě)的,現在忘了差不多了,不過(guò)大概的策略倒是和搜索排序的因子差不多正相關(guān)的。反作弊的話(huà)題,我記得吳軍的《數學(xué)之美》曾有專(zhuān)門(mén)章節論述,有興趣的同學(xué)也可以找來(lái)看看。吳軍在谷歌的時(shí)候,應該專(zhuān)門(mén)從事過(guò)一段時(shí)間反作弊系統的研發(fā)。
好了,這部分話(huà)題先分享到這里,下文分享下索引相關(guān)的話(huà)題。 查看全部
聊聊搜索引擎--網(wǎng)頁(yè)處理篇
前面的一篇文章發(fā)得有點(diǎn)匆忙,主要是想在大家過(guò)節前發(fā)一篇,別浪費了公眾號的發(fā)送次數。上文《》談的是爬蟲(chóng)部分。文章里提到之前寫(xiě)過(guò)兩篇有關(guān)搜索的文章,忘了鏈接過(guò)去了,這里放一下,方便有興趣的讀者閱讀。
《》
《》
前文提到,搜索引擎一般可以分為爬蟲(chóng)模塊,網(wǎng)頁(yè)處理,索引模塊,檢索模塊,排序模塊幾個(gè)模塊。爬蟲(chóng)負責抓取數據,算是數據生產(chǎn)方。今天我們要說(shuō)的是數據的加工部門(mén)。也就是網(wǎng)頁(yè)處理。
網(wǎng)頁(yè)處理在大部分介紹里,都算在爬蟲(chóng)部分。我呆過(guò)的第一家公司,并沒(méi)有網(wǎng)頁(yè)處理相關(guān)的小組。我當時(shí)基本上算是最主要的網(wǎng)頁(yè)處理工程師了,寫(xiě)了包括網(wǎng)頁(yè)解析基礎庫,各種網(wǎng)頁(yè)里的質(zhì)量信號的抽取等。不過(guò)我呆過(guò)的第二家搜索公司,當時(shí)有一個(gè)小組是專(zhuān)門(mén)做網(wǎng)頁(yè)解析的。當然,本文要談的不局限于網(wǎng)頁(yè)解析,而是在索引之前的搜索特征提取。在我做搜索的時(shí)候,機器學(xué)習還沒(méi)那么火,我們一般叫質(zhì)量信號之類(lèi)的。但是這些質(zhì)量信號,主要是服務(wù)排序的,排序作為一個(gè)機器學(xué)習任務(wù),使用到的因素,我們稱(chēng)之為特征比較好理解。而網(wǎng)頁(yè)解析等大部分工作,可以看成網(wǎng)頁(yè)排序這個(gè)復雜Task的特征工程。
Index pipeline
在一個(gè)網(wǎng)頁(yè)搜索中,完整的index pipeline 很復雜,涉及到死鏈檢測,soft 404頁(yè)面檢測,標題抽取,正文抽取,網(wǎng)頁(yè)發(fā)布時(shí)間抽取,結構化信息抽?。ū热缯搲母鱾€(gè)帖子的內容,作者,時(shí)間等。再比如電影的導演,主演,名字,別名等),host rank 計算,page rank計算,色情頁(yè)面檢測,垃圾頁(yè)面檢測,作弊網(wǎng)頁(yè)檢測,重復頁(yè)面檢測,病毒頁(yè)面檢測等等。
Html Parser
那么要完成這么多的搜索排序的特征工程,首先我們需要打造一個(gè)方便易用的網(wǎng)頁(yè)解析庫。一般我們會(huì )實(shí)現一個(gè)html parser, 基本DomTree 或者是SAX。編寫(xiě)一個(gè)這樣的引擎并不容易。解析一個(gè)網(wǎng)頁(yè)比較容易,但是要能夠解析幾千億的網(wǎng)頁(yè)而不crash,并且碰到網(wǎng)頁(yè)很大(比如超過(guò)2M),或者網(wǎng)頁(yè)很病態(tài)(比如只有open tag, 沒(méi)有close tag),解析的速度還能夠很快,并且內存依然不會(huì )爆掉,需要對這個(gè)網(wǎng)頁(yè)解析庫進(jìn)行千錘百煉。當然,網(wǎng)上已經(jīng)有了不少開(kāi)源的解析庫了。不過(guò)大部分情況是這樣的,要不接口不友好,要不性能糟糕,要么代碼風(fēng)格不好。之前谷歌也開(kāi)源了一個(gè)網(wǎng)頁(yè)解析的項目,我們測試下來(lái),性能實(shí)在是跟不上,不太適合搜索引擎。
Xpath
網(wǎng)頁(yè)解析除了html parser ,一般還需要方便工程師進(jìn)行網(wǎng)頁(yè)信息抽取,最好是基于配置文件進(jìn)行抽取,因此一般需要支持xpath 查詢(xún)語(yǔ)言。Xpath 的資料網(wǎng)上很豐富,大家有興趣可以結合XML語(yǔ)言去學(xué)習了解。那如何高效支持 Xpath 進(jìn)行信息抽取,甚至基于整個(gè)配置文件來(lái)抽取某一類(lèi)網(wǎng)頁(yè),甚至某一類(lèi)網(wǎng)站的多種信息抽取,就又有更高level的需求了,比如是否實(shí)現一個(gè)template config parser 之類(lèi)的解析庫。 核心訴求是,配置規則很簡(jiǎn)單,方便易學(xué),甚至可以找一些三四千塊錢(qián)的編輯就可以進(jìn)行配置。那么怎么把這個(gè)庫實(shí)現得優(yōu)雅高效,方便易學(xué),甚至如何開(kāi)發(fā)出一些配套的瀏覽器工具,便是這塊的核心競爭力。據我所知,百度等搜索公司對這方面都花了不少研發(fā)精力。
網(wǎng)頁(yè)解析這里有一個(gè)核心競爭力在于,如何利用你的工程能力,對網(wǎng)頁(yè)解析庫這樣底層的基礎工具進(jìn)行性能優(yōu)化,比如優(yōu)化個(gè)10-20%,或者優(yōu)化了三五倍的性能出來(lái),那整體的搜索引擎相關(guān)的計算集群資源,就能得到很大的改進(jìn),省出來(lái)的銀子,不見(jiàn)得比索引性能優(yōu)化,或者是檢索性能優(yōu)化,或者是各種機器學(xué)習模型的排序性能優(yōu)化來(lái)得少。
CSS Parser
網(wǎng)頁(yè)解析還有好幾個(gè)有挑戰的事情,比如要解析出來(lái)網(wǎng)頁(yè)里字體的大?。ㄗ煮w很小也是作弊的手段之一),顏色(顏色搞成和背景色一樣,也是作弊的手段之一),或者是文字是否可見(jiàn)(常規的作弊手段之一)等,都是需要比較高階的解析的。如果學(xué)過(guò)網(wǎng)頁(yè)設計,大家應該知道這塊需要對CSS進(jìn)行解析。CSS一般分為tag 內部的,html 文件內的,外部CSS文件等。那么如何高效地進(jìn)行CSS文件,并與HTML解析結果進(jìn)行結合,就有不少工作值得深入。
此外,CSS文件的壓縮和存儲/讀取,也有一定的挑戰。原因在于,不像html 這樣,大部分網(wǎng)頁(yè)的內容差異都比較大,CSS 一般是給一個(gè)網(wǎng)站,或者是一類(lèi)風(fēng)格的網(wǎng)頁(yè)設計的,文件的規模比較少。有一些建站工具做出來(lái)的,甚至大部分CSS都一樣。既然CSS文件的內容有特殊的規律,那么針對CSS的壓縮,可能就會(huì )存在特殊的算法。還有一個(gè)問(wèn)題是,網(wǎng)頁(yè)的內容可能不會(huì )變,但是網(wǎng)頁(yè)的風(fēng)格卻可能會(huì )被更新。在網(wǎng)頁(yè)解析的時(shí)候,往往一次性分析百億級別的網(wǎng)頁(yè),那如何高效讀取各個(gè)網(wǎng)頁(yè)對應的CSS文件呢?實(shí)時(shí)抓取么?還是存在mysql ? Nosql ? 還是怎么去特殊處理?
CSS 文件怎么解析呢? 也有不少開(kāi)源的項目,當然也可以參考各大瀏覽器開(kāi)源項目。不過(guò)瀏覽器項目里一般代碼依賴(lài)比較復雜,很難單獨抽取出來(lái)。
Javascript
其實(shí)這部分放在爬蟲(chóng)部分更合適。在抓取的時(shí)候,往往會(huì )碰到頁(yè)面跳轉,或者是有一部分關(guān)鍵的網(wǎng)頁(yè)內容,是在頁(yè)面本身加載完畢后,才開(kāi)始動(dòng)態(tài)加載的。比如做新聞的Hub頁(yè)抓取的時(shí)候,往往會(huì )發(fā)現我們想要的新聞內容頁(yè)的鏈接信息,是通過(guò) js 來(lái)生成的。那怎么辦?如果只是抓取一個(gè)網(wǎng)站,當然我們可以通過(guò)抓包分析,靠人工來(lái)總結瀏覽器背后的網(wǎng)絡(luò )行為,然后寫(xiě)代碼模擬瀏覽器的行為。通用點(diǎn)的,公司內搭建或者開(kāi)發(fā)一套瀏覽器抓取的方案,特殊的網(wǎng)頁(yè),都使用這些特殊的抓取服務(wù)來(lái)抓,這樣在下游做網(wǎng)頁(yè)解析的時(shí)候,看到的 html 都是一樣帶有我們想要抽取的頁(yè)面內容的了。
之所以放在這部分,很簡(jiǎn)單,js 是一門(mén)腳本語(yǔ)言,腳本語(yǔ)言的執行,其實(shí)也可以看成解析引擎在跑,只是這里的解析是腳本語(yǔ)言,而不是HTML 或者 XML 這樣的標記語(yǔ)言。
網(wǎng)頁(yè)特征抽取
不僅是搜索排序需要網(wǎng)頁(yè)特征抽取,掛在網(wǎng)頁(yè)里的廣告系統,也需要使用到網(wǎng)頁(yè)相關(guān)的信息,以判定哪些網(wǎng)頁(yè)和哪些商業(yè)關(guān)鍵詞更相關(guān)。
那么前面提到的特種網(wǎng)頁(yè)特征,活學(xué)活用上面提到的一些解析引擎就差不多了。當然做這個(gè)工作,很多時(shí)候需要有一雙善于觀(guān)察的眼睛。主要是幾個(gè)原因:
和網(wǎng)頁(yè)處理相關(guān)的話(huà)題,其中有一個(gè)是非常重要的,一個(gè)是page rank, host rank, 一個(gè)是反作弊。Pagerank 的資料網(wǎng)上可以說(shuō)是汗牛充棟了,谷歌和百度的創(chuàng )始人們,也都有這方面的論文或者專(zhuān)利。感興趣的讀者建議直接找一些相關(guān)的論文來(lái)閱讀。
反作弊和SEO
說(shuō)到反作弊,有興趣的可以看谷歌反作弊工程師的博客。網(wǎng)址忘了,自己搜索。業(yè)界很多做SEO的人,據說(shuō)都會(huì )去閱讀上面的文章并做各種研究。反作弊和作弊這個(gè)事兒,和信息安全與病毒的關(guān)系差不多,因為作弊能夠帶來(lái)商業(yè)上的好處,所以商業(yè)搜索引擎和作弊者的斗爭永遠沒(méi)有結束的時(shí)候。道高一尺魔高一丈,這會(huì )這些作弊的策略騙過(guò)了搜索引擎,明天可能就整站被下掉了。
說(shuō)過(guò)反作弊和SEO,往往外面的人覺(jué)得做搜索引擎開(kāi)發(fā)的工程師都有特權,知道怎么去操縱網(wǎng)頁(yè)的權重,其實(shí)都是想多了。一來(lái),這事兒不是誰(shuí)都懂,二來(lái),這事兒關(guān)乎職場(chǎng)道德,三來(lái),這事兒值錢(qián)的話(huà),我為啥免費給你干?
當然,反作弊的工作,往往也會(huì )干倒一大批,誤傷三五家。我身邊就有幾個(gè)朋友曾經(jīng)碰到類(lèi)似的情況,托我幫找朋友去解決問(wèn)題。
反作弊的話(huà)題和SEO的話(huà)題都挺大的,我自己也不太刪除。SEO之前曾經(jīng)閱讀過(guò)一本專(zhuān)著(zhù),好像是新加坡的一個(gè)哥們寫(xiě)的,現在忘了差不多了,不過(guò)大概的策略倒是和搜索排序的因子差不多正相關(guān)的。反作弊的話(huà)題,我記得吳軍的《數學(xué)之美》曾有專(zhuān)門(mén)章節論述,有興趣的同學(xué)也可以找來(lái)看看。吳軍在谷歌的時(shí)候,應該專(zhuān)門(mén)從事過(guò)一段時(shí)間反作弊系統的研發(fā)。
好了,這部分話(huà)題先分享到這里,下文分享下索引相關(guān)的話(huà)題。
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-上海怡健醫學(xué)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2022-05-18 18:04
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.總體策略locally+not-recall值對商品重要性進(jìn)行評估locallyanalyzedkeywords;以找出關(guān)鍵詞最為關(guān)鍵的字組做為最先找到的關(guān)鍵詞與其進(jìn)行評估locallyimprovedtherankingpractice;使商品呈現出重要性,可選擇符合要求的另一商品進(jìn)行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接進(jìn)行方案設計,允許多個(gè)關(guān)鍵字組進(jìn)行競爭,但取出那些,實(shí)際用戶(hù)搜索次數較少的關(guān)鍵字locallydefinedtheassets;找出并剔除對于構建大型數據集,這點(diǎn)很重要---這樣可以簡(jiǎn)化框架數據結構簡(jiǎn)化機器學(xué)習模型2.字段設計風(fēng)格采用某一小類(lèi)的一個(gè)特征來(lái)配置整個(gè)模型是有效的,與其關(guān)聯(lián)的字段可以有各種可能,比如此關(guān)鍵字是屬于手機的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
你可以考慮屬性之間的關(guān)系,比如你是無(wú)線(xiàn)商品,那么你是否為相似商品呢?也可以考慮下整個(gè)商品的特征所在庫中是否有索引,比如系統的業(yè)務(wù)有多少條商品相似的查詢(xún)?你可以用linguisticas_key()字段模擬查詢(xún)n.可以用集合的字段配置商品類(lèi)別(如not-recallunion)4.對于數據的取樣采用特征隨機去重后nms+shufflenetcrf等。 查看全部
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法-上海怡健醫學(xué)
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法1.總體策略locally+not-recall值對商品重要性進(jìn)行評估locallyanalyzedkeywords;以找出關(guān)鍵詞最為關(guān)鍵的字組做為最先找到的關(guān)鍵詞與其進(jìn)行評估locallyimprovedtherankingpractice;使商品呈現出重要性,可選擇符合要求的另一商品進(jìn)行排序locallyadjustedthesolutionoforganizedtothesiteelementatetothetoplist;使用框架的字段拼接進(jìn)行方案設計,允許多個(gè)關(guān)鍵字組進(jìn)行競爭,但取出那些,實(shí)際用戶(hù)搜索次數較少的關(guān)鍵字locallydefinedtheassets;找出并剔除對于構建大型數據集,這點(diǎn)很重要---這樣可以簡(jiǎn)化框架數據結構簡(jiǎn)化機器學(xué)習模型2.字段設計風(fēng)格采用某一小類(lèi)的一個(gè)特征來(lái)配置整個(gè)模型是有效的,與其關(guān)聯(lián)的字段可以有各種可能,比如此關(guān)鍵字是屬于手機的,那么可以有not-recall取平均,那么可以就有money,wash,fancy的中文字段。
你可以考慮屬性之間的關(guān)系,比如你是無(wú)線(xiàn)商品,那么你是否為相似商品呢?也可以考慮下整個(gè)商品的特征所在庫中是否有索引,比如系統的業(yè)務(wù)有多少條商品相似的查詢(xún)?你可以用linguisticas_key()字段模擬查詢(xún)n.可以用集合的字段配置商品類(lèi)別(如not-recallunion)4.對于數據的取樣采用特征隨機去重后nms+shufflenetcrf等。
國內數據庫對搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 97 次瀏覽 ? 2022-05-15 01:01
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法十多年來(lái),搜索引擎優(yōu)化一直是一項長(cháng)期的技術(shù)工作,對搜索引擎內部很多相關(guān)過(guò)程都進(jìn)行了梳理和分析,獲得了很多相關(guān)的知識。然而搜索引擎優(yōu)化的傳統方法無(wú)法獲得目標網(wǎng)站的內容的相關(guān)性分析的基礎,所以搜索引擎方法一直作為基礎方法來(lái)使用。所以,中國知網(wǎng)等國內數據庫對這些方法來(lái)說(shuō)可以作為第一步。
搜索引擎優(yōu)化主要思想是在滿(mǎn)足內容搜索規律的前提下,通過(guò)各種手段降低用戶(hù)點(diǎn)擊搜索結果的概率,最大化用戶(hù)體驗。那么我們將搜索引擎優(yōu)化分成兩個(gè)階段,提供相關(guān)性和改進(jìn)用戶(hù)體驗。第一階段(提供相關(guān)性):打破原網(wǎng)站舊的搜索結果信息,建立新的網(wǎng)站結果,提供新的內容,也就是原網(wǎng)站信息為搜索引擎優(yōu)化第一階段提供的內容,并針對網(wǎng)站,服務(wù)器及時(shí)修正搜索結果。
提供新信息會(huì )直接提高網(wǎng)站的排名。同時(shí)可以找到更多的潛在信息,獲得更多的潛在信息,也會(huì )提高網(wǎng)站排名。在提供這些新內容的同時(shí),也會(huì )根據網(wǎng)站內容進(jìn)行調整和更新,網(wǎng)站速度也會(huì )變快。提供相關(guān)性的同時(shí),這些新內容也需要進(jìn)行同步更新,也會(huì )加大網(wǎng)站傳播速度,加快網(wǎng)站擴張速度?,F有內容為搜索引擎優(yōu)化方法帶來(lái)了更多的信息。
這些信息用來(lái)拓展搜索內容的可能性,搜索量也會(huì )越來(lái)越大。此時(shí)搜索引擎優(yōu)化有些類(lèi)似與百度這樣大量的使用用戶(hù)對于新內容的搜索方式。在新內容設置中有一個(gè)設置,就是在內容設置中選擇是否要進(jìn)行適當的網(wǎng)絡(luò )爬蟲(chóng)抓取。如果無(wú)這個(gè)選項,由于搜索引擎的爬蟲(chóng)會(huì )對第一網(wǎng)站進(jìn)行抓取,會(huì )提高網(wǎng)站的內容爬取率。速度也會(huì )加快。并且會(huì )直接產(chǎn)生一個(gè)優(yōu)化效果,由于百度大量的爬蟲(chóng)爬取的原因,新內容也會(huì )不斷地進(jìn)入第一網(wǎng)站。 查看全部
國內數據庫對搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法
搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法十多年來(lái),搜索引擎優(yōu)化一直是一項長(cháng)期的技術(shù)工作,對搜索引擎內部很多相關(guān)過(guò)程都進(jìn)行了梳理和分析,獲得了很多相關(guān)的知識。然而搜索引擎優(yōu)化的傳統方法無(wú)法獲得目標網(wǎng)站的內容的相關(guān)性分析的基礎,所以搜索引擎方法一直作為基礎方法來(lái)使用。所以,中國知網(wǎng)等國內數據庫對這些方法來(lái)說(shuō)可以作為第一步。
搜索引擎優(yōu)化主要思想是在滿(mǎn)足內容搜索規律的前提下,通過(guò)各種手段降低用戶(hù)點(diǎn)擊搜索結果的概率,最大化用戶(hù)體驗。那么我們將搜索引擎優(yōu)化分成兩個(gè)階段,提供相關(guān)性和改進(jìn)用戶(hù)體驗。第一階段(提供相關(guān)性):打破原網(wǎng)站舊的搜索結果信息,建立新的網(wǎng)站結果,提供新的內容,也就是原網(wǎng)站信息為搜索引擎優(yōu)化第一階段提供的內容,并針對網(wǎng)站,服務(wù)器及時(shí)修正搜索結果。
提供新信息會(huì )直接提高網(wǎng)站的排名。同時(shí)可以找到更多的潛在信息,獲得更多的潛在信息,也會(huì )提高網(wǎng)站排名。在提供這些新內容的同時(shí),也會(huì )根據網(wǎng)站內容進(jìn)行調整和更新,網(wǎng)站速度也會(huì )變快。提供相關(guān)性的同時(shí),這些新內容也需要進(jìn)行同步更新,也會(huì )加大網(wǎng)站傳播速度,加快網(wǎng)站擴張速度?,F有內容為搜索引擎優(yōu)化方法帶來(lái)了更多的信息。
這些信息用來(lái)拓展搜索內容的可能性,搜索量也會(huì )越來(lái)越大。此時(shí)搜索引擎優(yōu)化有些類(lèi)似與百度這樣大量的使用用戶(hù)對于新內容的搜索方式。在新內容設置中有一個(gè)設置,就是在內容設置中選擇是否要進(jìn)行適當的網(wǎng)絡(luò )爬蟲(chóng)抓取。如果無(wú)這個(gè)選項,由于搜索引擎的爬蟲(chóng)會(huì )對第一網(wǎng)站進(jìn)行抓取,會(huì )提高網(wǎng)站的內容爬取率。速度也會(huì )加快。并且會(huì )直接產(chǎn)生一個(gè)優(yōu)化效果,由于百度大量的爬蟲(chóng)爬取的原因,新內容也會(huì )不斷地進(jìn)入第一網(wǎng)站。
檢索技巧 | 這些科技信息檢索技巧,學(xué)到了嗎?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 201 次瀏覽 ? 2022-05-14 19:25
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧” 查看全部
檢索技巧 | 這些科技信息檢索技巧,學(xué)到了嗎?
據統計,科研人員項目時(shí)間的51%都花費在查找和閱讀科技資料上。能夠快速有效地查找科技信息,已經(jīng)成為科研人員一項重要而亟待解決的問(wèn)題。然而,大數據時(shí)代,想要在短時(shí)間內從浩如煙海的資源中搜索出有價(jià)值的信息并非易事。原來(lái)從100篇里就能搜出10篇有用的信息,而現在可能要從1萬(wàn)篇里才能搜出。檢索不到、檢索不準、檢索不全,就是目前科技信息檢索中面臨的嚴峻問(wèn)題。如何找到有價(jià)值的資源庫?如何選取關(guān)鍵詞?如何從紛繁復雜的資料中挖掘出準確、有價(jià)值的信息?本文就信息檢索過(guò)程中遇到的實(shí)際問(wèn)題,提出了一些實(shí)用的技巧和方法。
二、科技信息檢索的技巧
?。ㄒ唬祿斓倪x擇
數據庫的選擇對信息檢索工作的開(kāi)展具有十分重要的意義和作用。每個(gè)數據庫都有其傾向的專(zhuān)業(yè)范圍,檢索時(shí)如果根據所需信息的內容大致判斷出可以從哪些數據庫中獲得,選擇合適的數據庫,就能減少查詢(xún)時(shí)間,提高檢索效率和準確度,提升檢索質(zhì)量,達到事半功倍的效果。比如中文數據庫,則可以選擇中國知網(wǎng)。
?。ǘz索字段的選取與確認
檢索字段的選取應遵循“選全、選準”的原則,盡量避免遺漏主題詞。應根據檢索信息的中心內容和研究對象進(jìn)行客觀(guān)、細致的主題分析,找出最能表達主題內容、最具檢索價(jià)值的詞匯。盡量不遺漏文中涉及的新觀(guān)點(diǎn)、新方法、新技術(shù)、新成果概念等關(guān)鍵性的主題詞;其選取范圍不能局限于文章標題,還要從文章的摘要、各級層次標題、正文、結論中進(jìn)行遴選。
?。ㄈz索范圍的調整
在檢索結果不理想的情況下,可以考慮調整檢索范圍,對檢索字段進(jìn)行適當的擴展,使搜索到的信息準確性高、針對性強。檢索字段的擴展應從其是否存在同義詞、近義詞、上下位類(lèi)詞、音、形相近詞、專(zhuān)有名詞、截詞、外來(lái)詞等方面進(jìn)行分析,最后確定檢索字段。
?。ㄋ模z索策略的優(yōu)化
采用簡(jiǎn)單的檢索字段容易造成檢索結果不準確,無(wú)法滿(mǎn)足檢索需求。為保證檢索結果的全面性和準確性,在檢索過(guò)程中,科研人員應充分利用大型數據庫檢索系統所提供的“高級檢索”、“專(zhuān)業(yè)檢索”等方法,對關(guān)鍵的檢索字段進(jìn)行合理組配、擴展、組合,完善檢索途徑,優(yōu)化檢索策略,從而提高檢索字段的檢索效率。檢索要達到最終較高的專(zhuān)指度,檢索字段、檢索范圍及檢索策略等方面都是一個(gè)不斷修正、校準、優(yōu)化的過(guò)程。
?。ㄎ澹┨厥鈾z索符的巧用
不同的算符組成不同的檢索式,檢索結果會(huì )截然不同。巧妙使用各種算符,編寫(xiě)恰當的檢索式,可以合理地限制檢索詞,優(yōu)化檢索策略,提高檢索精度。
1、雙引號。雙引號表示精確匹配。如果輸入一個(gè)名稱(chēng)直接搜索,比如,天津總后軍事交通運輸研究所,可以搜出上百頁(yè),大概100多萬(wàn)條記錄。如果加上雙引號再搜,只剩下兩條!為什么會(huì )出現這種狀況?雙引號表示全字符匹配,就是一個(gè)字不能差。但如果不加雙引號,“天津”這個(gè)詞搜出10萬(wàn)條,“總后”這個(gè)詞搜出10萬(wàn)條,“軍事”這個(gè)詞又搜出10萬(wàn)條,這樣累加起來(lái),數量極其龐大!所以,給要檢索的主題詞加上雙引號,檢索結果可以實(shí)現精確匹配,而不包括其他演變形式,可以濾掉很多冗余信息。這個(gè)功能也可以直接使用中國知網(wǎng)高級檢索的“精確”選項進(jìn)行檢索。
2、減號?!?”的作用是去除標題中很多不相關(guān)的結果。找出不相關(guān)結果的特征關(guān)鍵詞,將它減掉,查詢(xún)結果中將不出現該關(guān)鍵詞。例如,檢索時(shí)輸入“超市—家
樂(lè )福超市”,表示最后的查詢(xún)結果中一定不包含“家樂(lè )福超市”。
3、邏輯算符AND。用AND連接兩個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,實(shí)現有效檢索。例如,導彈的一體化設計,如果直接將導彈(missile)和一體化設計(integrated design)兩個(gè)詞同時(shí)輸入:missile integrated design,則數據庫中只顯示2條記錄;而使用missile AND integrated design 組合查詢(xún),則顯示270條記錄??梢?jiàn),邏輯運算符的使用技巧決定著(zhù)檢索結果的滿(mǎn)意程度。
4、位置算符。
?。?)NEAR。表示兩個(gè)檢索詞必須緊密相連,兩個(gè)檢索詞的詞序可以顛倒,但除了空格和標點(diǎn)符號外,不得插入其他詞或字母。例如,檢索education NEAR technology,結果中同時(shí)包含education和technology,也可以technology NEAR education。
?。?)WITH。表示兩個(gè)檢索詞必須按順序出現,兩個(gè)檢索詞的詞序不可以顛倒。中間不允許插入其他詞或字母,只能有空格和標點(diǎn)符號。例如,high(W)class,檢出的匹配詞可能有high class 或high-class。
5、布爾邏輯算符。運用布爾邏輯算符將具有簡(jiǎn)單概念的檢索項組配成能完整、準確地表達檢索內容的檢索式,運用此檢索式進(jìn)行檢索,可以剔除不需要的概念,使檢索結果更加全面、準確。
?。?)OR。將若干個(gè)檢索詞組合起來(lái),檢索結果中至少包含一個(gè)檢索詞,與檢索詞的先后順序和位置無(wú)關(guān)。例如,education OR technology 的檢索結果中必然包含education或technology中的一個(gè)。
?。?)NOT。排除一個(gè)檢索詞,檢索結果中不包含緊跟在NOT后面的檢索詞,可以排除無(wú)關(guān)的檢索項。例如,education NOT technology 的檢索結果中必然包含education而不包含technology。布爾運算符可以擴大或縮小檢索范圍,改變檢索策略,直接影響檢索結果。
6、截詞符。(1)“*”用于通配多個(gè)字符,只能用于英文和數字。例如,使用“aero*”可以檢索到所有包含aero開(kāi)頭的單詞(如:aerospace,aerobus等)的文獻,但“*”不能置于表達式開(kāi)頭。(2)“?”用于通配單個(gè)字符,只能用于英文和數字。例如,使用“aero???”可以檢索到所有包含aero開(kāi)頭,共7個(gè)字符單詞(如:aerocab,aerobus等)的文獻。截詞檢索節省輸入的字符數目,卻可以有效預防漏檢,提高查全率。
?。┢渌匾獧z索事項
1、注意英文檢索詞的選擇。在查找專(zhuān)業(yè)領(lǐng)域的資料時(shí),為了保障查找資料的準確性和完整性,往往需要對照翻譯前的英文原文。但實(shí)際檢索過(guò)程中,會(huì )發(fā)現英文原文給出的關(guān)鍵詞不準確或不全面,甚至是中文直譯成英文的,這些都可能導致搜集到的資料出現錯誤或不全。例如,查找“小衛星”這個(gè)詞時(shí),如果用直譯的small satelite檢索,搜出的資料肯定不全??梢試L試多種表達方式,如mini satelite、smallsat、tiny satelite、micro satellite等。
2、搜素引擎的靈活應用。搜索引擎名目繁多,應根據不同的檢索需要選擇合適的搜索引擎,靈活運用各種檢索方式。大多數搜索引擎都支持元詞(metawords)檢索功能。把元詞放在關(guān)鍵詞前面,搜索引擎要檢索的內容就具有了明確特征。例如,在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。另外,百度等搜索引擎都具有高級搜索功能??梢院芎玫叵拗扑阉鞣秶?、搜索時(shí)間、搜索格式以及過(guò)濾關(guān)鍵詞等。優(yōu)化標題時(shí),還可以靈活使用短線(xiàn)“-”、下滑線(xiàn)“_”、空格“”、豎線(xiàn)“|”或者“———”等符合搜索引擎規則的間隔符。
檢索技巧的運用,在科技信息檢索中起著(zhù)非常重要的作用。它直接影響檢索策略,影響檢索效率和檢索效果。在數據量激增的今天,掌握有效的信息檢索方法,提高檢索技巧和搜索能力,對于科研人員獲取科技前沿信息會(huì )有很大的幫助。
全文獲?。褐W(wǎng)篇名檢索“科技信息檢索的技巧”
外貿業(yè)務(wù)員應該知道的搜索引擎查詢(xún)方法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-05-14 04:35
所謂搜索引擎,是指根據一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統。從用戶(hù)的角度來(lái)講,搜索引擎就是幫助用戶(hù)方便地查詢(xún)網(wǎng)上信息的。而對于外貿業(yè)務(wù)員,那么搜索引擎就可以被用來(lái)尋找客戶(hù)、查詢(xún)客戶(hù)信息等。 但是如果外貿業(yè)務(wù)員不熟悉搜索引擎的話(huà),往往輸入搜索詞后出現了成百上千個(gè)查詢(xún)結果,而這些結果中并沒(méi)有多少想要的東西。面對著(zhù)一堆信息垃圾,可想而知這時(shí)業(yè)務(wù)員的心情該是如何的沮喪。不過(guò),這不是因為搜索引擎沒(méi)有用,而是由于外貿業(yè)務(wù)員沒(méi)能很好地駕馭它,沒(méi)有掌握它的使用技巧,才導致這樣的后果。 其實(shí),每個(gè)搜索引擎都有自己的查詢(xún)方法,只有熟練的掌握它才能運用自如。雖然,不同的搜索引擎提供的查詢(xún)方法不完全相同,但是一些通用的查詢(xún)方法,各個(gè)搜索引擎基本上都具有,下面就逐一介紹一些常用的查詢(xún)方法。 一、簡(jiǎn)單查詢(xún) 在搜索引擎中輸入關(guān)鍵詞,然后點(diǎn)擊“搜索”就行了,系統很快會(huì )返回查詢(xún)結果,這是最簡(jiǎn)單的查詢(xún)方法,使用方便,但是查詢(xún)的結果卻不準確,可能包含著(zhù)許多無(wú)用的信息。 二、使用雙引號("") 給要查詢(xún)的關(guān)鍵詞加上雙引號(半角,以下要加的其它符號同此),可以實(shí)現精確的查詢(xún),這種方法要求查詢(xún)結果要精確匹配,不包括演變形式。
例如在搜索引擎的文字框中輸入“電傳”,它就會(huì )返回網(wǎng)頁(yè)中有“電傳”這個(gè)關(guān)鍵字的網(wǎng)址,而不會(huì )返回諸如“電話(huà)傳真”之類(lèi)網(wǎng)頁(yè)。 三、使用加號(+) 在關(guān)鍵詞的前面使用加號,也就等于告訴搜索引擎該單詞必須出現在搜索結果中的網(wǎng)頁(yè)上,例如,在搜索引擎中輸入“+電腦+電話(huà)+傳真”就表示要查找的內容必須要同時(shí)包含“電腦、電話(huà)、傳真”這三個(gè)關(guān)鍵詞。 四、使用減號(-) 在關(guān)鍵詞的前面使用減號,也就意味著(zhù)在查詢(xún)結果中不能出現該關(guān)鍵詞,例如,在搜索引擎中輸入“電視臺-中央電視臺”,它就表示最后的查詢(xún)結果中一定不包含“中央電視臺”。 五、使用通配符(*和?) 通配符包括星號(*)和問(wèn)號(?),前者表示匹配的數量不受限制,后者匹配的字符數要受到限制,主要用在英文搜索引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。 六、使用布爾檢索 所謂布爾檢索,是指通過(guò)標準的布爾邏輯關(guān)系來(lái)表達關(guān)鍵詞與關(guān)鍵詞之間邏輯關(guān)系的一種查詢(xún)方法,這種查詢(xún)方法允許我們輸入多個(gè)關(guān)鍵詞,各個(gè)關(guān)鍵詞之間的關(guān)系可以用邏輯關(guān)系詞來(lái)表示。
and,稱(chēng)為邏輯“與”,用and進(jìn)行連接,表示它所連接的兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,例如,輸入“computer and book”,它要求查詢(xún)結果中必須同時(shí)包含computer和book; or,稱(chēng)為邏輯“或”,它表示所連接的兩個(gè)關(guān)鍵詞中任意一個(gè)出現在查詢(xún)結果中就可以,例如,輸入“computer or book”,就要求查詢(xún)結果中可以只有computer,或只有book,或同時(shí)包含computer和book; not,稱(chēng)為邏輯“非”,它表示所連接的兩個(gè)關(guān)鍵詞中應從第一個(gè)關(guān)鍵詞概念中排除第二個(gè)關(guān)鍵詞,例如輸入“automobile not car”,就要求查詢(xún)的結果中包含automobile(汽車(chē)),但同時(shí)不能包含car(小汽車(chē)); near,它表示兩個(gè)關(guān)鍵詞之間的詞距不能超過(guò)n個(gè)單詞。 在實(shí)際的使用過(guò)程中,你可以將各種邏輯關(guān)系綜合運用,靈活搭配,以便進(jìn)行更加復雜的查詢(xún)。 七、使用括號 當兩個(gè)關(guān)鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時(shí),就可以對這兩個(gè)詞加上圓括號。 八、使用元詞檢索 大多數搜索引擎都支持“元詞”(metawords)功能,依據這類(lèi)功能用戶(hù)把元詞放在關(guān)鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特征。
例如,你在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。在鍵入的關(guān)鍵詞后加上“domain:org”,就可以查到所有以org為后綴的網(wǎng)站。其他元詞還包括:image:用于檢索圖片,link:用于檢索鏈接到某個(gè)選定網(wǎng)站的頁(yè)面,URL:用于檢索地址中帶有某個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。 九、區分大小寫(xiě) 這是檢索英文信息時(shí)要注意的一個(gè)問(wèn)題,許多英文搜索引擎如谷歌(Google)可以讓用戶(hù)選擇是否要求區分關(guān)鍵詞的大小寫(xiě),這一功能對查詢(xún)專(zhuān)有名詞有很大的幫助,例如:Web專(zhuān)指萬(wàn)維網(wǎng)或環(huán)球網(wǎng),而web則表示蜘蛛網(wǎng)。 當然,以上列舉的搜索引擎查詢(xún)技巧只是一些最基礎的,但也是外貿業(yè)務(wù)員最需要了解的搜索引擎查詢(xún)方法。然而,想要獲取查詢(xún)到更直接、更有效的信息,外貿業(yè)務(wù)員就應該選擇好查詢(xún)用的關(guān)鍵詞或者關(guān)鍵詞組合。 查看全部
外貿業(yè)務(wù)員應該知道的搜索引擎查詢(xún)方法
所謂搜索引擎,是指根據一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統。從用戶(hù)的角度來(lái)講,搜索引擎就是幫助用戶(hù)方便地查詢(xún)網(wǎng)上信息的。而對于外貿業(yè)務(wù)員,那么搜索引擎就可以被用來(lái)尋找客戶(hù)、查詢(xún)客戶(hù)信息等。 但是如果外貿業(yè)務(wù)員不熟悉搜索引擎的話(huà),往往輸入搜索詞后出現了成百上千個(gè)查詢(xún)結果,而這些結果中并沒(méi)有多少想要的東西。面對著(zhù)一堆信息垃圾,可想而知這時(shí)業(yè)務(wù)員的心情該是如何的沮喪。不過(guò),這不是因為搜索引擎沒(méi)有用,而是由于外貿業(yè)務(wù)員沒(méi)能很好地駕馭它,沒(méi)有掌握它的使用技巧,才導致這樣的后果。 其實(shí),每個(gè)搜索引擎都有自己的查詢(xún)方法,只有熟練的掌握它才能運用自如。雖然,不同的搜索引擎提供的查詢(xún)方法不完全相同,但是一些通用的查詢(xún)方法,各個(gè)搜索引擎基本上都具有,下面就逐一介紹一些常用的查詢(xún)方法。 一、簡(jiǎn)單查詢(xún) 在搜索引擎中輸入關(guān)鍵詞,然后點(diǎn)擊“搜索”就行了,系統很快會(huì )返回查詢(xún)結果,這是最簡(jiǎn)單的查詢(xún)方法,使用方便,但是查詢(xún)的結果卻不準確,可能包含著(zhù)許多無(wú)用的信息。 二、使用雙引號("") 給要查詢(xún)的關(guān)鍵詞加上雙引號(半角,以下要加的其它符號同此),可以實(shí)現精確的查詢(xún),這種方法要求查詢(xún)結果要精確匹配,不包括演變形式。
例如在搜索引擎的文字框中輸入“電傳”,它就會(huì )返回網(wǎng)頁(yè)中有“電傳”這個(gè)關(guān)鍵字的網(wǎng)址,而不會(huì )返回諸如“電話(huà)傳真”之類(lèi)網(wǎng)頁(yè)。 三、使用加號(+) 在關(guān)鍵詞的前面使用加號,也就等于告訴搜索引擎該單詞必須出現在搜索結果中的網(wǎng)頁(yè)上,例如,在搜索引擎中輸入“+電腦+電話(huà)+傳真”就表示要查找的內容必須要同時(shí)包含“電腦、電話(huà)、傳真”這三個(gè)關(guān)鍵詞。 四、使用減號(-) 在關(guān)鍵詞的前面使用減號,也就意味著(zhù)在查詢(xún)結果中不能出現該關(guān)鍵詞,例如,在搜索引擎中輸入“電視臺-中央電視臺”,它就表示最后的查詢(xún)結果中一定不包含“中央電視臺”。 五、使用通配符(*和?) 通配符包括星號(*)和問(wèn)號(?),前者表示匹配的數量不受限制,后者匹配的字符數要受到限制,主要用在英文搜索引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。 六、使用布爾檢索 所謂布爾檢索,是指通過(guò)標準的布爾邏輯關(guān)系來(lái)表達關(guān)鍵詞與關(guān)鍵詞之間邏輯關(guān)系的一種查詢(xún)方法,這種查詢(xún)方法允許我們輸入多個(gè)關(guān)鍵詞,各個(gè)關(guān)鍵詞之間的關(guān)系可以用邏輯關(guān)系詞來(lái)表示。
and,稱(chēng)為邏輯“與”,用and進(jìn)行連接,表示它所連接的兩個(gè)詞必須同時(shí)出現在查詢(xún)結果中,例如,輸入“computer and book”,它要求查詢(xún)結果中必須同時(shí)包含computer和book; or,稱(chēng)為邏輯“或”,它表示所連接的兩個(gè)關(guān)鍵詞中任意一個(gè)出現在查詢(xún)結果中就可以,例如,輸入“computer or book”,就要求查詢(xún)結果中可以只有computer,或只有book,或同時(shí)包含computer和book; not,稱(chēng)為邏輯“非”,它表示所連接的兩個(gè)關(guān)鍵詞中應從第一個(gè)關(guān)鍵詞概念中排除第二個(gè)關(guān)鍵詞,例如輸入“automobile not car”,就要求查詢(xún)的結果中包含automobile(汽車(chē)),但同時(shí)不能包含car(小汽車(chē)); near,它表示兩個(gè)關(guān)鍵詞之間的詞距不能超過(guò)n個(gè)單詞。 在實(shí)際的使用過(guò)程中,你可以將各種邏輯關(guān)系綜合運用,靈活搭配,以便進(jìn)行更加復雜的查詢(xún)。 七、使用括號 當兩個(gè)關(guān)鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時(shí),就可以對這兩個(gè)詞加上圓括號。 八、使用元詞檢索 大多數搜索引擎都支持“元詞”(metawords)功能,依據這類(lèi)功能用戶(hù)把元詞放在關(guān)鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特征。
例如,你在搜索引擎中輸入“title:清華大學(xué)”,就可以查到網(wǎng)頁(yè)標題中帶有清華大學(xué)的網(wǎng)頁(yè)。在鍵入的關(guān)鍵詞后加上“domain:org”,就可以查到所有以org為后綴的網(wǎng)站。其他元詞還包括:image:用于檢索圖片,link:用于檢索鏈接到某個(gè)選定網(wǎng)站的頁(yè)面,URL:用于檢索地址中帶有某個(gè)關(guān)鍵詞的網(wǎng)頁(yè)。 九、區分大小寫(xiě) 這是檢索英文信息時(shí)要注意的一個(gè)問(wèn)題,許多英文搜索引擎如谷歌(Google)可以讓用戶(hù)選擇是否要求區分關(guān)鍵詞的大小寫(xiě),這一功能對查詢(xún)專(zhuān)有名詞有很大的幫助,例如:Web專(zhuān)指萬(wàn)維網(wǎng)或環(huán)球網(wǎng),而web則表示蜘蛛網(wǎng)。 當然,以上列舉的搜索引擎查詢(xún)技巧只是一些最基礎的,但也是外貿業(yè)務(wù)員最需要了解的搜索引擎查詢(xún)方法。然而,想要獲取查詢(xún)到更直接、更有效的信息,外貿業(yè)務(wù)員就應該選擇好查詢(xún)用的關(guān)鍵詞或者關(guān)鍵詞組合。