搜索引擎優(yōu)化技巧(一個(gè)的工作原理是什么?如何了解搜索引擎的意義?)
優(yōu)采云 發(fā)布時(shí)間: 2021-09-03 05:01搜索引擎優(yōu)化技巧(一個(gè)的工作原理是什么?如何了解搜索引擎的意義?)
對于新手 SEO 來(lái)說(shuō),您不需要考慮太多事情。你明白偽原創(chuàng )也是制勝法寶。知道如何獲取外鏈資源,足以讓你受益匪淺。而且隨著(zhù)SEO工作的不斷深入,你會(huì )慢慢發(fā)現充分利用互聯(lián)網(wǎng)給你每一針的重要性。了解搜索引擎的工作原理,其含義自然不是問(wèn)題。
搜索引擎的工作原理,簡(jiǎn)單來(lái)說(shuō),主要包括三個(gè)步驟:首先發(fā)現和采集互聯(lián)網(wǎng)上的網(wǎng)頁(yè)信息;同時(shí)對信息進(jìn)行提取整理,構建索引庫;然后根據用戶(hù)輸入的查詢(xún)詞搜索key,快速查看索引庫中的文檔,評估文檔與查詢(xún)的相關(guān)性,對輸出結果進(jìn)行排序,將查詢(xún)結果返回給用戶(hù)。排名的設計算法問(wèn)題,暫時(shí)不贅述。這里我主要講爬取和爬取和預處理。
搜索引擎抓取和抓取的原理
通過(guò)蜘蛛程序,各個(gè)搜索引擎在訪(fǎng)問(wèn)網(wǎng)站時(shí)會(huì )先抓取網(wǎng)站根目錄下的robots.txt文件,從而獲取網(wǎng)站中禁止抓取的URL信息搜索引擎收錄不會(huì )搜索到禁止抓取的部分網(wǎng)址。
每個(gè)獨立的搜索引擎都有自己的網(wǎng)絡(luò )爬蟲(chóng)蜘蛛。為了獲取更多的信息,蜘蛛會(huì )通過(guò)頁(yè)面上的鏈接來(lái)抓取頁(yè)面。理論上,蜘蛛可以通過(guò)鏈接抓取整個(gè)互聯(lián)網(wǎng)上的信息,但在實(shí)際操作中,考慮到頁(yè)面的復雜性,蜘蛛會(huì )采取深度爬行和廣度爬行兩種方式進(jìn)行頁(yè)面爬行。 為避免重復爬取和爬取,搜索引擎會(huì )建立已發(fā)現但未爬取和已爬取兩個(gè)網(wǎng)頁(yè)地址庫供參考和比較,爬取的頁(yè)面將進(jìn)入原創(chuàng )頁(yè)面數據庫。至此,原數據庫的建立工作告一段落。
搜索引擎預處理(索引)階段的原理
蜘蛛抓取網(wǎng)頁(yè)后,建立原創(chuàng )數據庫,搜索引擎將提取網(wǎng)頁(yè)文本。當然,除了頁(yè)面上顯示的文字,搜索引擎還會(huì )執行meta標簽、flash替代文件、錨文本。 、Alt 標簽和文本的其他部分被提取出來(lái)。提取文本后,將進(jìn)入下一階段:分詞。
無(wú)論百度的算法如何,不可否認,百度的中文分詞技術(shù)是被搜索引擎壟斷的。對于頁(yè)面上爬取的文本,搜索引擎會(huì )進(jìn)行分詞處理,例如“施言網(wǎng)站optimization”分為“施言”和“網(wǎng)站optimization”兩部分。分詞方法一般有詞典和統計兩種方法。字典不需要太多解釋?zhuān)恢劣诮y計,是指通過(guò)分析大量文本,計算詞之間相鄰出現的概率。概率越大,越容易形成單詞。百度目前采用兩種方法的組合來(lái)達到最佳效果。
說(shuō)到這里,大家會(huì )問(wèn),漢語(yǔ)中經(jīng)常出現的一些詞,如“的”、“了”、“呀”等,沒(méi)有實(shí)際意義,但使用頻率高,會(huì )怎樣呢? 答案是消除,從而提高搜索引擎的計算效率。
在瀏覽網(wǎng)頁(yè)信息時(shí),我們會(huì )發(fā)現網(wǎng)站里面有一些部分反復出現,比如“導航”、“廣告”等,對于頁(yè)面的顯示內容,它沒(méi)有實(shí)際意義。搜索引擎也會(huì )對這部分內容進(jìn)行處理,從而過(guò)濾掉收錄頁(yè)面的最終文本部分。當然,在過(guò)濾掉文本部分后,搜索引擎也會(huì )對每個(gè)網(wǎng)頁(yè)上顯示的最終文本內容進(jìn)行比較,從而刪除重復的內容并顯示出來(lái)。
經(jīng)過(guò)以上步驟,就可以構建索引庫了。這時(shí),索引會(huì )分為兩個(gè)階段:正向索引和倒排索引。正向索引可以簡(jiǎn)單理解為以收錄頁(yè)面的URL為主鍵,頁(yè)面分詞結果為內容庫,如下圖所示。
在前向索引的末尾,我們可以發(fā)現它不能用于排名。這時(shí)候我們就需要一個(gè)倒排索引,即以關(guān)鍵詞為主鍵,以關(guān)鍵詞的URL和對應的內容為內容構建索引庫。如下圖。
當用戶(hù)用關(guān)鍵詞搜索信息時(shí),搜索引擎會(huì )在數據庫中搜索,如果找到符合用戶(hù)要求的網(wǎng)站,就會(huì )使用一種特殊的算法——通常是基于@的匹配關(guān)鍵詞在網(wǎng)頁(yè)上的程度、出現位置、頻率、鏈接質(zhì)量等——計算每個(gè)網(wǎng)頁(yè)的相關(guān)性和排名等級,然后根據相關(guān)性將這些網(wǎng)頁(yè)鏈接依次返回給用戶(hù)。
此時(shí),預處理(索引)階段由搜索引擎通過(guò)鏈接分析和特殊文件的處理完成。由此我們也可以看出,了解搜索引擎的原理對于理解和啟迪日常的SEO工作是非常明顯的。比如在偽原創(chuàng )的過(guò)程中,你只需在一些文章上添加簡(jiǎn)單的輔助詞,或者對一小部分文字內容進(jìn)行簡(jiǎn)單的修改。對不起,你的文章在爬行階段進(jìn)行了預處理甚至爬行并通過(guò)了。
了解了搜索引擎抓取的原理,日常優(yōu)化中還需要注意一些技巧:
網(wǎng)站url 優(yōu)化建議
網(wǎng)站創(chuàng )建了一個(gè)描述性好、標準化、簡(jiǎn)單的url,有利于用戶(hù)更方便的記憶和判斷網(wǎng)頁(yè)內容,也有利于搜索引擎更多地捕捉你的網(wǎng)站有效地。 網(wǎng)站設計之初,要有合理的URL規劃。
1、只使用系統中的正常網(wǎng)址,防止用戶(hù)訪(fǎng)問(wèn)異常網(wǎng)址。
2、 不要在 URL 中放置會(huì )話(huà) id 和統計代碼等不必要的內容。
3、不同形式的url,301會(huì )永久跳轉到正常形式。
4、備用域名,用于防止用戶(hù)輸入錯誤。 301永久重定向到主域名。
5、使用 robots.txt 禁止百度蜘蛛抓取您不想顯示給用戶(hù)的表單。
網(wǎng)站title 信息優(yōu)化建議
網(wǎng)頁(yè)標題是用來(lái)告訴用戶(hù)和搜索引擎這個(gè)網(wǎng)頁(yè)的主要內容是什么,當用戶(hù)在百度搜索中搜索你的網(wǎng)頁(yè)時(shí),標題會(huì )作為最重要的內容出現在摘要中搜索引擎判斷網(wǎng)頁(yè)內容的權重時(shí),標題是主要參考信息之一。
1、Home:網(wǎng)站名或網(wǎng)站名_提供服務(wù)介紹或產(chǎn)品介紹
2、頻道頁(yè)面:頻道名稱(chēng)_網(wǎng)站name。
3、文章page:文章title_channel name_網(wǎng)站name。注意:1. 應該有一個(gè)明確的主題,并收錄此頁(yè)面上最重要的內容。 2.簡(jiǎn)潔明了,不羅列與網(wǎng)頁(yè)內容無(wú)關(guān)的信息。 3.用戶(hù)瀏覽一般是從左到右,重要的內容應該放在標題的頂部。
4、Description 使用用戶(hù)熟悉的語(yǔ)言。如果你有中英文兩個(gè)網(wǎng)站名字,盡量使用用戶(hù)熟悉的一個(gè)作為標題描述。
網(wǎng)站meta 信息優(yōu)化建議
meta description是meta標簽的一部分,位于html代碼的區域。元描述是網(wǎng)頁(yè)內容的簡(jiǎn)明摘要。如果描述與網(wǎng)頁(yè)內容相符,百度會(huì )將描述作為摘要的選擇目標之一。好的描述有助于用戶(hù)更輕松地從搜索結果中判斷您的網(wǎng)頁(yè)內容是否滿(mǎn)足他們的需求。元描述不是權重計算的參考因素。該標簽的存在與否不影響網(wǎng)頁(yè)的權重,只會(huì )作為搜索結果匯總的選擇目標。推薦做法:
1、網(wǎng)站首頁(yè)、頻道頁(yè)、產(chǎn)品參數頁(yè)等,沒(méi)有大段文字可以作為摘要的網(wǎng)頁(yè)最適合描述。
2、 為每個(gè)網(wǎng)頁(yè)創(chuàng )建不同的描述,以避免在所有網(wǎng)頁(yè)上使用相同的描述。
3、長(cháng)度合理,但長(cháng)度不能太短。
網(wǎng)站圖片替代優(yōu)化技巧
建議為圖片添加alt說(shuō)明。這是因為在較慢的網(wǎng)速無(wú)法顯示圖片的情況下,它可以讓用戶(hù)了解圖片所傳達的信息,也可以讓搜索引擎了解圖片的內容。同樣,在使用圖片導航時(shí),也可以使用alt注解告訴搜索引擎該網(wǎng)頁(yè)的內容所指向的內容。
網(wǎng)站flash 信息建議
百度蜘蛛只能讀取文本內容。 Flash、圖片等非文本內容暫時(shí)無(wú)法處理。百度無(wú)法識別flash中的文字和圖片。因此,如果一定要使用flash,建議在object標簽中添加注釋信息。此信息將被視為 Flash 的描述。讓搜索引擎更好地了解您的 Flash 內容。
不推薦使用frame和iframe結構。通過(guò) iframe 顯示的內容可能會(huì )被百度丟棄。
通過(guò)對搜索引擎工作原理的理解,結合你掌握的網(wǎng)站seo優(yōu)化方法,相信事半功倍