最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

網(wǎng)頁(yè)爬蟲(chóng)抓取百度圖片(為什么使用爬蟲(chóng)為什么我們需要使用千磨風(fēng)?(上))

優(yōu)采云 發(fā)布時(shí)間: 2022-02-22 15:11

  網(wǎng)頁(yè)爬蟲(chóng)抓取百度圖片(為什么使用爬蟲(chóng)為什么我們需要使用千磨風(fēng)?(上))

  關(guān)鍵詞:爬蟲(chóng)簡(jiǎn)介

  千辛萬(wàn)苦,千錘百煉,任爾南北風(fēng),東風(fēng)西風(fēng)。本期文章主要講第55天:爬蟲(chóng)相關(guān)知識介紹,希望對大家有所幫助。

  由先歡

  作為程序員,相信大家對“爬蟲(chóng)”這個(gè)詞并不陌生。人們經(jīng)常在周?chē)岬竭@個(gè)詞。在不知道的人眼里,他們會(huì )認為這項技術(shù)非常高端和神秘。別著(zhù)急,我們的爬蟲(chóng)系列就帶你揭開(kāi)它的神秘面紗,探尋它的真面目。

  什么是爬行動(dòng)物

  網(wǎng)絡(luò )爬蟲(chóng)(也稱(chēng)為網(wǎng)絡(luò )蜘蛛或網(wǎng)絡(luò )機器人)是一種程序或腳本,它根據一定的規則自動(dòng)爬取萬(wàn)維網(wǎng)上的信息。其他不太常用的名稱(chēng)是 ant、autoindex、emulator 或 worm。

  通俗地說(shuō),我們把互聯(lián)網(wǎng)比作一個(gè)大蜘蛛網(wǎng),每個(gè)站點(diǎn)資源都比作蜘蛛網(wǎng)上的一個(gè)節點(diǎn)。爬蟲(chóng)就像一只蜘蛛,按照設計好的路線(xiàn)和規則在這張蜘蛛網(wǎng)上尋找目標節點(diǎn)。,獲取資源。

  為什么要使用爬蟲(chóng)

  為什么我們需要使用爬蟲(chóng)?

  你可以想象一個(gè)場(chǎng)景:你很崇拜一個(gè)微博名人,你對他的微博很著(zhù)迷,你想把他微博上十年的每一句話(huà)都提取出來(lái),做成名人語(yǔ)錄。你在這個(gè)時(shí)候做什么?手動(dòng)轉到 Ctrl+C 和 Ctrl+V?這種方法確實(shí)是正確的。數據量少的時(shí)候我們可以這樣做,但是數據量上千的時(shí)候還需要這樣做嗎?

  再想象一個(gè)場(chǎng)景:你想做一個(gè)新聞聚合網(wǎng)站,你需要每天定時(shí)去幾條新聞網(wǎng)站獲取最新消息,我們稱(chēng)之為RSS訂閱。你定期去每個(gè)訂閱網(wǎng)站復制新聞嗎?恐怕個(gè)人很難做到這一點(diǎn)。

  在以上兩種場(chǎng)景下,使用爬蟲(chóng)技術(shù)可以輕松解決問(wèn)題。因此,我們可以看到爬蟲(chóng)技術(shù)主要可以幫我們做兩種事情:一是數據獲取需求,主要是針對特定規則下的大量數據的獲??;另一個(gè)是自動(dòng)化需求,主要用于類(lèi)似信息的聚合、搜索等。

  爬行動(dòng)物的分類(lèi)

  從爬取對象的角度,爬蟲(chóng)可以分為通用爬蟲(chóng)和專(zhuān)注爬蟲(chóng)。

  通用網(wǎng)絡(luò )爬蟲(chóng),也稱(chēng)為Scalable Web Crawler,將爬取對象從一些*敏*感*詞*URL擴展到整個(gè)Web,主要針對搜索引擎和大型Web服務(wù)商采集數據。此類(lèi)網(wǎng)絡(luò )爬蟲(chóng)的爬取范圍和數量巨大,對爬取速度和存儲空間的要求比較高,對爬取頁(yè)面的順序要求比較低。比如我們常見(jiàn)的百度和谷歌搜索。我們進(jìn)入關(guān)鍵詞,他們會(huì )從全網(wǎng)找到關(guān)鍵詞相關(guān)的網(wǎng)頁(yè),并按照一定的順序呈現給我們。

  Focused Crawler 是指有選擇地抓取與??預定義主題相關(guān)的頁(yè)面的網(wǎng)絡(luò )爬蟲(chóng)。與一般的網(wǎng)絡(luò )爬蟲(chóng)相比,聚焦爬蟲(chóng)只需要爬取特定的網(wǎng)頁(yè),爬取的廣度會(huì )小很多。比如我們需要爬取東方財富網(wǎng)的基金數據,只需要制定規則爬取東方財富網(wǎng)的頁(yè)面即可。

  通俗的說(shuō),萬(wàn)能爬蟲(chóng)類(lèi)似于蜘蛛,需要尋找特定的食物,但是它不知道蜘蛛網(wǎng)的哪個(gè)節點(diǎn)有它,所以只能從一個(gè)節點(diǎn)開(kāi)始,到時(shí)候再看這個(gè)節點(diǎn)遇到它,如果有食物就拿食物,如果這個(gè)節點(diǎn)表示某個(gè)節點(diǎn)有食物,那么它會(huì )按照指示尋找下一個(gè)節點(diǎn)。網(wǎng)絡(luò )爬蟲(chóng)的重點(diǎn)是蜘蛛知道哪個(gè)節點(diǎn)有食物,它只需要規劃一條路線(xiàn)到達那個(gè)節點(diǎn)就可以得到食物。

  瀏覽網(wǎng)頁(yè)的過(guò)程

  在用戶(hù)瀏覽網(wǎng)頁(yè)的過(guò)程中,我們可能會(huì )看到很多漂亮的圖片,比如我們會(huì )看到幾張圖片和百度搜索框,類(lèi)似下圖:

  

  這個(gè)過(guò)程其實(shí)就是用戶(hù)輸入URL后,經(jīng)過(guò)DNS服務(wù)器,找到服務(wù)器主機,向服務(wù)器發(fā)送請求。服務(wù)器解析后,將html、js、css等文件發(fā)送到用戶(hù)的瀏覽器。瀏覽器解析后,用戶(hù)可以看到各種圖片。

  因此,用戶(hù)看到的網(wǎng)頁(yè)本質(zhì)上是由 HTML 代碼組成的,爬蟲(chóng)爬取這些內容。通過(guò)對這些HTML代碼進(jìn)行分析和過(guò)濾,實(shí)現圖片、文字等資源的獲取。

  網(wǎng)址的含義

  URL,即Uniform Resource Locator,也就是我們所說(shuō)的網(wǎng)站,Uniform Resource Locator是對可以從互聯(lián)網(wǎng)上獲取的資源的位置和訪(fǎng)問(wèn)方式的簡(jiǎn)明表示,是互聯(lián)網(wǎng)上標準資源的地址. Internet 上的每個(gè)文件都有一個(gè)唯一的 URL,其中收錄指示文件位置以及瀏覽器應該如何處理它的信息。

  URL的格式由三部分組成:

  由于爬蟲(chóng)的目標是獲取資源,而資源存儲在某個(gè)主機上,所以爬蟲(chóng)在爬取數據時(shí)必須有一個(gè)目標URL來(lái)獲取數據。因此,它是爬蟲(chóng)獲取數據的基本依據。準確理解它的含義,對于爬蟲(chóng)的學(xué)習很有幫助。

  爬蟲(chóng)的過(guò)程

  我們下一章主要討論焦點(diǎn)爬蟲(chóng)。焦點(diǎn)爬蟲(chóng)的工作流程如下:

  

  從這個(gè)爬蟲(chóng)的過(guò)程中,你應該可以想到學(xué)習爬蟲(chóng)需要學(xué)習的關(guān)鍵步驟。首先,我們需要像瀏覽器一樣請求一個(gè)URL來(lái)獲取主機的資源,所以正確請求和獲取內容的方法是我們研究的重點(diǎn)。我們獲取資源后(即請求URL后得到的響應內容),需要解析響應內容,為我們獲取有價(jià)值的數據。這里的分析方法是學(xué)習的重點(diǎn)。我們拿到數據后,接下來(lái)需要存儲數據,數據的存儲方式也很重要。

  因此,我們所學(xué)的爬蟲(chóng)技術(shù)其實(shí)可以概括為三個(gè)基本問(wèn)題:請求、解析和存儲。如果掌握了這三個(gè)問(wèn)題的相應解決方案,爬蟲(chóng)技術(shù)就掌握了。在學(xué)習爬蟲(chóng)的過(guò)程中,大家都會(huì )關(guān)注這三個(gè)問(wèn)題,不會(huì )走彎路。

  總結

  本節介紹爬蟲(chóng)的基本概念,以便您對爬蟲(chóng)有一個(gè)大致的了解,以便在后續章節中學(xué)習。開(kāi)胃菜吃完了,下一節就要開(kāi)始饕餮盛宴了,你準備好了嗎?

  文中示例代碼:

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区