爬蟲(chóng)簡(jiǎn)介
優(yōu)采云 發(fā)布時(shí)間: 2020-06-17 08:01網(wǎng)絡(luò )爬蟲(chóng)機器人,以互聯(lián)網(wǎng)自由抓取數據的程序
網(wǎng)頁(yè)的三大特點(diǎn):
是拿來(lái)寫(xiě)前端的,對于異步和多任務(wù)處理不太好,爬蟲(chóng)是一個(gè)工具性的程序爬蟲(chóng),對效率要求比較高
是Python寫(xiě)爬蟲(chóng)的最大競爭對手,Java語(yǔ)言生態(tài)系統比較健全,對各模塊的支持也比較友好。但是Java這門(mén)語(yǔ)言比較笨重,重構和迭代成本比價(jià)高
語(yǔ)言較難,代碼成形比較慢
語(yǔ)法簡(jiǎn)單素雅,第三方模塊比較豐富,關(guān)于爬蟲(chóng)的網(wǎng)路懇求模塊和網(wǎng)路解析模塊(Lxml,BeautifulSoup,pyQuery)也比較多,并且有高效穩定的scrapy網(wǎng)路爬蟲(chóng)框架,以及爬scrapy,redis分布式爬蟲(chóng)框架,Python也是一門(mén)膠帶語(yǔ)言,對于其他語(yǔ)言的調用比較便捷
是搜索引擎的重要組成部份
盡可能的將所有互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地,經(jīng)過(guò)預處理(去噪,分詞,去廣告),最終將數據存儲到本地,做一個(gè)鏡像備份產(chǎn)生一個(gè)檢索系統
1.選取一部分的url作為*敏*感*詞*url,將這種url裝入到帶爬取的任務(wù)隊列上面
2.從待爬取的任務(wù)列隊中取出url,發(fā)起懇求,將獲取的網(wǎng)頁(yè)源碼儲存到本地
并將早已爬取過(guò)的url ,放到已爬取的隊列中
3.從已爬取的URL的響應結果中剖析提取其他的url的地址,繼續添加到待爬取的隊列中,
之后就是不斷的循環(huán),直到所有的url都獲取完畢。
1.通過(guò)網(wǎng)站提交自己的網(wǎng)站地址()
2.搜索引擎會(huì )和DNS服務(wù)商合作,拿到最新的網(wǎng)站地址
3.網(wǎng)站中包含其他外鏈
DNS服務(wù):將我們的域名轉換為對應的ip的一種技術(shù)
數據獲取------>預處理(去噪,分詞,去廣告.....)------>存儲------>提供檢索插口|排名(網(wǎng)絡(luò )排行)
網(wǎng)站排名:
1.根據用戶(hù)的訪(fǎng)問(wèn)量(越多越靠前)
2.競價(jià)排名
1.必須遵循robot合同:就是一個(gè)規范,告訴搜索引擎爬蟲(chóng),哪些目錄下的資源容許爬蟲(chóng),哪些目錄下的資源不容許爬蟲(chóng)
"user-agent":這項值拿來(lái)表示是哪家的搜索引擎
"allow":允許被爬取的url
"disallow":不容許被爬取的url
2.搜索引擎返回的都是網(wǎng)頁(yè),并且返回的90%都是無(wú)用的信息
3.不能否按照不同用戶(hù)的需求返回不同的結果
4.通用爬蟲(chóng)對于多媒體的文件不能夠獲取
聚焦爬蟲(chóng)是面向主題的爬蟲(chóng),在爬蟲(chóng)數據的過(guò)程中會(huì )對數據進(jìn)行篩選,往往只會(huì )爬蟲(chóng)與需求相關(guān)的數據