禁止搜索引擎收錄網(wǎng)站內容的幾種方式
優(yōu)采云 發(fā)布時(shí)間: 2020-07-31 08:01
第一種、robots.txt方式
搜索引擎默認的遵循robots.txt合同,創(chuàng )建robots.txt文本文件放至網(wǎng)站根目錄下,編輯代碼如下:
User-agent: *
Disallow: /
通過(guò)以上代碼,即可告訴搜索引擎不要抓取采取收錄本網(wǎng)站,注意慎用如上代碼:這將嚴禁所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部份。
如何只嚴禁百度搜索引擎收錄抓取網(wǎng)頁(yè)
1、編輯robots.txt文件,設計標記為:
User-agent: Baiduspider
Disallow: /
以上robots文件將實(shí)現嚴禁所有來(lái)自百度的抓取。
這里說(shuō)一下百度的user-agent,Baiduspider的user-agent是哪些?
百度各個(gè)產(chǎn)品使用不同的user-agent:
產(chǎn)品名稱(chēng) 對應user-agent
無(wú)線(xiàn)搜索 Baiduspider
圖片搜索 Baiduspider-image
視頻搜索 Baiduspider-video
新聞搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度聯(lián)盟 Baiduspider-cpro
商務(wù)搜索 Baiduspider-ads
網(wǎng)頁(yè)以及其他搜索 Baiduspider
你可以依據各產(chǎn)品不同的user-agent設置不同的抓取規則,以下robots實(shí)現嚴禁所有來(lái)自百度的抓取但容許圖片搜索抓取/image/目錄:
User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-image
Allow: /image/
請注意:Baiduspider-cpro和Baiduspider-ads抓取的網(wǎng)頁(yè)并不會(huì )建入索引,只是執行與顧客約定的操作,所以不遵循robots協(xié)議,這個(gè)就須要和百度的人聯(lián)系才會(huì )解決了。
如何只嚴禁Google搜索引擎收錄抓取網(wǎng)頁(yè),方法如下:
編輯robots.txt文件,設計標記為:
User-agent: googlebot
Disallow: /
編輯robots.txt文件
搜索引擎默認的遵循robots.txt協(xié)議
robots.txt文件置于網(wǎng)站根目錄下。
舉例來(lái)說(shuō),當搜索引擎訪(fǎng)問(wèn)一個(gè)網(wǎng)站時(shí),首先會(huì )檢測該網(wǎng)站根目錄中是否存在robots.txt這個(gè)文件,如果搜索引擎找到這個(gè)文件搜索引擎禁止的方式優(yōu)化網(wǎng)站,它還會(huì )依據這個(gè)文件里的內容,來(lái)確定它抓取的權限的范圍。
User-agent:
該項的值用于描述搜索引擎robot的名子,在”robots.txt”文件中,如果有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì )遭到該合同的限制搜索引擎禁止的方式優(yōu)化網(wǎng)站,對該文件來(lái)說(shuō),至少要有一條User-agent記錄。如果該項的值設為*,則該合同對任何機器人均有效,在”robots.txt”文件中,”User-agent:*”這樣的記錄只能有一條。
Disallow:
該項的值用于描述不希望被訪(fǎng)問(wèn)到的一個(gè)URL,這個(gè)URL可以是一條完整的路徑,也可以是部份的,任何以Disallow開(kāi)頭的URL均不會(huì )被robot訪(fǎng)問(wèn)到。例如”Disallow:/help”對/help.html 和/help/index.html都不容許搜索引擎訪(fǎng)問(wèn),而”Disallow:/help/”則容許robot訪(fǎng)問(wèn)/help.html,而不能訪(fǎng)問(wèn)/help/index.html。任何一條Disallow記錄為空,說(shuō)明該網(wǎng)站的所有部份都容許被訪(fǎng)問(wèn),在”/robots.txt”文件中,至少要有一條Disallow記錄。如果”/robots.txt”是一個(gè)空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開(kāi)放的。
下面舉幾個(gè)robots.txt用法的反例:
User-agent: *
Disallow: /
禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的所有部份
User-agent: Baiduspider
Disallow: /
禁止百度收錄全站
User-agent: Googlebot
Disallow: /
禁止Google收錄全站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止除Google外的一切搜索引擎收錄全站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
禁止除百度外的一切搜索引擎收錄全站
User-agent: *
Disallow: /css/
Disallow: /admin/
禁止所有搜索引擎訪(fǎng)問(wèn)某個(gè)目錄
?。ɡ鐕澜夸浵碌腶dmin和css)
第二種、網(wǎng)頁(yè)代碼方式
在網(wǎng)站首頁(yè)代碼之間,加入代碼,此標記嚴禁搜索引擎抓取網(wǎng)站并顯示網(wǎng)頁(yè)快照。
在網(wǎng)站首頁(yè)代碼之間,加入即可嚴禁百度搜索引擎抓取網(wǎng)站并顯示網(wǎng)頁(yè)快照。
在網(wǎng)站首頁(yè)代碼之間,加入即可嚴禁谷歌搜索引擎抓取網(wǎng)站并顯示網(wǎng)頁(yè)快照。
另外當我們的需求太古怪的時(shí)侯,比如下邊這幾種情況:
1. 網(wǎng)站已經(jīng)加了robots.txt,還能在百度搜索下來(lái)?
因為搜索引擎索引數據庫的更新須要時(shí)間。雖然Baiduspider早已停止訪(fǎng)問(wèn)您網(wǎng)站上的網(wǎng)頁(yè),但百度搜索引擎數據庫中早已構建的網(wǎng)頁(yè)索引信息,可能須要數月時(shí)間才能消除。另外也請復查您的robots配置是否正確。如果您的拒絕被收錄需求十分緊迫,也可以通過(guò)投訴平臺反饋懇求處理。
2. 希望網(wǎng)站內容被百度索引但不被保存快照,我該如何做?
Baiduspider遵循互聯(lián)網(wǎng)meta robots協(xié)議。您可以借助網(wǎng)頁(yè)meta的設置,使百度顯示只對該網(wǎng)頁(yè)建索引,但并不在搜索結果中顯示該網(wǎng)頁(yè)的快照。和robots的更新一樣,因為搜索引擎索引數據庫的更新須要時(shí)間,所以即使您早已在網(wǎng)頁(yè)中通過(guò)meta嚴禁了百度在搜索結果中顯示該網(wǎng)頁(yè)的快照,但百度搜索引擎數據庫中若果早已構建了網(wǎng)頁(yè)索引信息,可能須要二至四周才能在線(xiàn)上生效。
希望被百度索引,但是不保存網(wǎng)站快照,如下代碼解決:
如果要嚴禁所有的搜索引擎保存你網(wǎng)頁(yè)的快照,那么代碼就是下邊的:
常用的一些代碼組合:
?。嚎梢宰ト”卷?yè),而且可以沿著(zhù)本頁(yè)繼續索引別的鏈接
?。翰辉S抓取本頁(yè),但是可以沿著(zhù)本頁(yè)抓取索引別的鏈接
?。嚎梢宰ト”卷?yè),但是不許沿著(zhù)本頁(yè)抓取索引別的鏈接
?。翰辉S抓取本頁(yè),也不許沿著(zhù)本頁(yè)抓取索引別的鏈接