一篇文章讓你看懂百度搜索引擎原理——檢索排序
優(yōu)采云 發(fā)布時(shí)間: 2022-07-10 21:29一篇文章讓你看懂百度搜索引擎原理——檢索排序
搜索引擎原理很多人都只知其一,不知其二,隨著(zhù)互聯(lián)網(wǎng)時(shí)代的發(fā)展,越來(lái)越多的算法被公開(kāi),也有越來(lái)越多的人對搜索引擎算法感到好奇,今天迅步總結的這篇文章用最簡(jiǎn)單直白的語(yǔ)言來(lái)解釋搜索引擎的原理。本章內容分為抓取建庫、檢索排序、外部投票以及結果展現。
檢索排序
檢索
我們都知道站在用戶(hù)的角度,我們使用搜索引擎是一個(gè)query的過(guò)程,用戶(hù)在搜索不同的詞匯的時(shí)候,搜索引擎會(huì )給我們不同的展現結果,比如我們搜索“運營(yíng)是什么”,百度會(huì )把一些跟主題最相關(guān)的答部分展現給用戶(hù),而搜索“運營(yíng)是什么行業(yè)”的時(shí)候,百度會(huì )變更搜索結果,把另外一些相關(guān)的答案展示給用戶(hù),而這個(gè)檢索的流程是如何實(shí)現的呢?這就不得不提到檢索。
用戶(hù)在輸入詞匯的時(shí)候,算法會(huì )進(jìn)行分詞處理,然后查出每個(gè)term文檔集合,然后求交集,然后通過(guò)協(xié)同過(guò)濾以及其他過(guò)濾手法最終形成了排序,我們拿上面的運營(yíng)是什么來(lái)舉例,分詞后會(huì )變成:
運營(yíng)——0x123sdsd
是——0x1237887
什么——0x565768
而算法查出每個(gè)文檔集合(頁(yè)面集合),有可能是這樣
0x123sdsd 1 3 4 5
0x1237887 3 5 12
0x565768 9 7 6
上述求交集后,發(fā)現文檔3、5是我們可能需要找的。如果用一個(gè)更簡(jiǎn)單的例子,我們可以這樣描述:比如用戶(hù)搜索運營(yíng)是什么行業(yè)的query后,百度分詞結果是:
運營(yíng) A,B,C,
是 D,E
什么 G,H
行業(yè) H, C
我們可以看出,用戶(hù)搜索“運營(yíng)是什么行業(yè)”,頁(yè)面C是我們想要找的結果,在實(shí)際應用過(guò)程中,百度算法會(huì )丟棄比如啊、什么、哦等這類(lèi)的詞語(yǔ),也就是說(shuō),我們的頁(yè)面越多的包含分詞后的詞,那么被檢索出來(lái)的幾率就越大,這也就是行業(yè)所稱(chēng)的“關(guān)鍵詞密度”。
排序
既然檢索有了結果,那哪些因素會(huì )影響到排序呢?
1、相關(guān)性
相關(guān)性是影響排序的重要因素,占據了70%以上,網(wǎng)頁(yè)內容和用戶(hù)檢索需求的匹配程度,相關(guān)性主要體現在需求匹配、關(guān)鍵詞個(gè)數以及關(guān)鍵詞出現的位置和外部鏈接指向該頁(yè)面所用的錨文本。
翻譯過(guò)來(lái)就是,比如我們的內容中,出現跟運營(yíng)、行業(yè)高度相關(guān)的詞庫,并且多次出現在H1等位置,外部一個(gè)鏈接使用錨文本指向該頁(yè)面,那么該頁(yè)面大概率是跟該主題高度相關(guān)的。
2、權威性
用戶(hù)都喜歡權威性的站點(diǎn),算法也相信權威站點(diǎn)的內容,而權威性代表了 這個(gè)網(wǎng)站的資質(zhì),也就是我們經(jīng)常提到的備案、百度保障、百度信譽(yù)、百度認證等。
3、時(shí)效性
時(shí)效性?xún)热菀簿褪谴沓霈F了新的頁(yè)面,而新頁(yè)面承載新鮮的內容,按時(shí)間排序我們的內容就可以排到前面。
4、重要性
網(wǎng)頁(yè)內容與用戶(hù)需求匹配重要程度或受歡迎程度,這句話(huà)理解過(guò)來(lái)就是,用戶(hù)在進(jìn)行query的時(shí)候,我們的內容不僅跟主題相關(guān),內容還是要能吸引用戶(hù)和被用戶(hù)所重視的。
5、豐富度
豐富度看似簡(jiǎn)單,確實(shí)范圍很廣,簡(jiǎn)單的理解是你可以生產(chǎn)一篇內容滿(mǎn)足用戶(hù)單一需求,但還可以滿(mǎn)足用戶(hù)的延展需求,什么意思呢?我們可以拿上面的“運營(yíng)是什么行業(yè)”舉個(gè)例子,用戶(hù)搜索運營(yíng)是什么行業(yè)的時(shí)候,用戶(hù)的一般需求是想了解運營(yíng)具體什么行業(yè),是否可以入行,更深層的需求是想了解一下運營(yíng)這個(gè)行業(yè)的薪資待遇,是否有發(fā)展前景,如果我們把用戶(hù)的多種需求都在一篇文章中完善了,文章的豐富度就出來(lái)了。
總結一下檢索排序的流程:用戶(hù)在進(jìn)行query的時(shí)候,算法會(huì )對問(wèn)題進(jìn)行切詞處理,讓包含此主題的所有頁(yè)面進(jìn)行結果展現,但由于一些頁(yè)面內容跟主題高度相關(guān)、內容且很豐富,觀(guān)點(diǎn)新穎讓用戶(hù)喜歡,這樣的文章就會(huì )被算法排在前面。
如果需要做推廣的可以聯(lián)系媒介星軟文平臺公眾號或者媒介星軟文平臺官網(wǎng)和我們取得聯(lián)系。
媒介星軟文發(fā)稿平臺專(zhuān)注新聞軟文發(fā)稿,軟文代寫(xiě),軟文營(yíng)銷(xiāo)等服務(wù),一手網(wǎng)絡(luò )新聞媒體推廣平臺,多維度提供廣告主和媒體編輯直線(xiàn)對接,為企業(yè)提供網(wǎng)站推廣 網(wǎng)站排名 數據優(yōu)化,口碑推廣營(yíng)銷(xiāo),品牌策劃,軟文代寫(xiě)、新聞源發(fā)布、軟文發(fā)稿等服務(wù)為主。聯(lián)系:(微信同號)