百度搜索引擎優(yōu)化原理(解讀一下的段落解讀(二)解讀解讀)
優(yōu)采云 發(fā)布時(shí)間: 2022-03-26 20:19百度搜索引擎優(yōu)化原理(解讀一下的段落解讀(二)解讀解讀)
今天又看了一遍,發(fā)現還是有很多值得深思的地方。下面我將摘錄和解釋我更感興趣的段落。
一、爬取文章
蜘蛛爬取系統包括鏈接存儲系統、鏈接選擇系統、DNS解析服務(wù)系統、爬取調度系統、網(wǎng)頁(yè)分析系統、鏈接提取系統、鏈接分析系統和網(wǎng)頁(yè)存儲系統。
解讀:蜘蛛從鏈接庫中選擇鏈接,爬取鏈接對應的頁(yè)面,將網(wǎng)頁(yè)保存到網(wǎng)頁(yè)庫中,然后提取爬取頁(yè)面中的鏈接,將這些鏈接與鏈接庫進(jìn)行比較,合并重復鏈接,建立到庫的新鏈接。其中,在爬取頁(yè)面時(shí),對頁(yè)面進(jìn)行了簡(jiǎn)單的分析,過(guò)濾掉了垃圾頁(yè)面。這是一個(gè)循環(huán)過(guò)程。
百度蜘蛛根據上述網(wǎng)站設定的協(xié)議爬取網(wǎng)站頁(yè)面,但不可能對所有網(wǎng)站一視同仁。它會(huì )綜合考慮網(wǎng)站的實(shí)際情況來(lái)確定一個(gè)抓取配額,每天定量抓取網(wǎng)站內容,也就是我們常說(shuō)的抓取頻率。那么百度搜索引擎是用什么索引來(lái)判斷一個(gè)網(wǎng)站的爬取頻率呢?
主要有四個(gè)指標:
1、網(wǎng)站更新頻率:更新越頻繁,更新越慢,直接影響百度蜘蛛的訪(fǎng)問(wèn)頻率;
2、網(wǎng)站更新質(zhì)量:更新頻率的提高只是為了吸引百度蜘蛛的注意。百度蜘蛛對質(zhì)量有嚴格的要求。如果被判斷為低質(zhì)量頁(yè)面仍然沒(méi)有意義;
3、連通性:網(wǎng)站應該安全穩定,保持百度蜘蛛暢通,保持百度蜘蛛關(guān)閉不是好事;
4、站點(diǎn)評價(jià):百度搜索引擎會(huì )對每個(gè)站點(diǎn)進(jìn)行評價(jià),這個(gè)評價(jià)會(huì )根據站點(diǎn)情況不斷變化,是百度搜索引擎對該站點(diǎn)的一個(gè)基本評分(絕不是百度權重)如外界所說(shuō)),是百度內部非常機密的數據。站點(diǎn)評級從不單獨使用,并與其他因素和閾值一起影響 網(wǎng)站 的爬取和排名。
解讀:如果你的網(wǎng)站新更新的文章百度收錄很慢收錄,你可以從以上四點(diǎn)找到原因,其中影響最大的是更新頻率,也就是我們常說(shuō)的,要學(xué)會(huì )養蜘蛛,更新頻率不僅僅指更新量,還要注意每天更新的次數不能相差太大。另外,網(wǎng)站注意訪(fǎng)問(wèn)的穩定性。打開(kāi)速度太慢或者打不開(kāi),會(huì )影響收錄的問(wèn)題。
百度蜘蛛抓取的頁(yè)數并不是最重要的,重要的是建了多少頁(yè)到索引庫中,也就是我們常說(shuō)的“建庫”。眾所周知,搜索引擎的索引庫是分層的。高質(zhì)量的網(wǎng)頁(yè)將分配到重要的索引庫,普通網(wǎng)頁(yè)將留在普通庫,較差的網(wǎng)頁(yè)將分配到低級庫作為補充資料。目前60%的檢索需求只需要調用重要的索引庫就可以滿(mǎn)足,這就解釋了為什么有些網(wǎng)站的收錄的高流量并不理想。
解讀:我覺(jué)得這三個(gè)層次的索引庫也是相互轉化的。比如普通圖書(shū)館的頁(yè)面會(huì )被提升到優(yōu)質(zhì)圖書(shū)館。對于很多新站點(diǎn)或信任度較低的站點(diǎn),很難直接發(fā)布新發(fā)布的頁(yè)面。進(jìn)入優(yōu)質(zhì)庫,但如果后期被搜索用戶(hù)查到,大量外鏈導入可能轉化為優(yōu)質(zhì)庫。
哪些頁(yè)面可以進(jìn)入優(yōu)質(zhì)索引庫?其實(shí)總的原則是一個(gè):對用戶(hù)有價(jià)值!
包括但不僅限于:
1、時(shí)間敏感且有價(jià)值的頁(yè)面:在這里,及時(shí)性和價(jià)值并列,缺一不可。一些網(wǎng)站為了生成時(shí)間敏感的內容頁(yè)面做了很多采集的工作,導致一堆毫無(wú)價(jià)值的頁(yè)面,百度不想看到;
2、內容優(yōu)質(zhì)的專(zhuān)題頁(yè)面:專(zhuān)題頁(yè)面的內容不一定是完全的原創(chuàng ),也就是可以很好的融合各方的內容,或者添加一些新鮮的內容,比如瀏覽量和評論,為用戶(hù)提供更豐富、更全面的內容;
3、高價(jià)值原創(chuàng )內容頁(yè)面:百度將原創(chuàng )定義為花費一定成本,積累大量經(jīng)驗后形成的文章。永遠不要再問(wèn)我們偽原創(chuàng )是不是原創(chuàng );
4、重要的個(gè)人頁(yè)面:這里只是一個(gè)例子,科比在新浪微博上開(kāi)了一個(gè)賬號,他需要不經(jīng)常更新,但對于百度來(lái)說(shuō)仍然是一個(gè)非常重要的頁(yè)面。
解讀:請注意這里的時(shí)效性、價(jià)值性、整合性、成本性、獨立性,尤其是里面的成本,復制粘貼不花錢(qián),頭條也不花錢(qián),所以就算你不原創(chuàng ),你還要讓人覺(jué)得你的 文章 是用大量時(shí)間或金錢(qián)制作的。上面百度提到的四點(diǎn)不包括權威,但權威也是一個(gè)非常關(guān)鍵的因素。同一個(gè)文章,大門(mén)戶(hù)復制和小站長(cháng)復制,層次不同。
哪些頁(yè)面不能被索引
上面提到的優(yōu)質(zhì)網(wǎng)頁(yè)都進(jìn)入了索引庫,所以其實(shí)網(wǎng)上的大部分網(wǎng)站都沒(méi)有被百度收錄列出來(lái)。不是百度沒(méi)找到,而是建庫前的篩選過(guò)程中被過(guò)濾掉了。那么在第一個(gè)鏈接中過(guò)濾掉了什么樣的網(wǎng)頁(yè):
1、 重復內容的網(wǎng)頁(yè):百度不需要收錄 互聯(lián)網(wǎng)上已有的內容。
2、一個(gè)空的和短的主體的網(wǎng)頁(yè)。
?、?部分內容使用了百度蜘蛛無(wú)法解析的技術(shù),如JS、AJAX等,雖然用戶(hù)可以訪(fǎng)問(wèn)豐富的內容,但還是會(huì )被搜索引擎拋棄;
?、?加載速度慢的網(wǎng)頁(yè)也可能被視為空的短頁(yè)。注意廣告加載時(shí)間計入網(wǎng)頁(yè)總加載時(shí)間;
?、?很多主體無(wú)關(guān)緊要的網(wǎng)頁(yè)即使被抓取回來(lái)也會(huì )被丟棄在這個(gè)鏈接中。
3、作弊頁(yè)面的一部分。
解讀:了解搜索引擎的工作原理對于從事SEO非常重要。有時(shí)候,我們并不需要刻意去研究如何獲得好的排名,只要站在搜索引擎的角度,了解它們的基本工作原理,如果整個(gè)爬取排序系統讓你開(kāi)發(fā)你會(huì )怎么做? 換位思考后,不要再考慮站長(cháng)的利益,而更多地考慮搜索用戶(hù)喜歡什么,想要什么。