最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

分享:優(yōu)采云采集頭條文章采集規則使用說(shuō)明!【匯總篇】

優(yōu)采云 發(fā)布時(shí)間: 2022-10-30 06:23

  分享:優(yōu)采云采集頭條文章采集規則使用說(shuō)明!【匯總篇】

  陶小白的優(yōu)采云采集規則寫(xiě)了很久,很多朋友都在用。由于用戶(hù)群不同,部分用戶(hù)對優(yōu)采云不熟悉,會(huì )造成很多問(wèn)題。今天為大家總結一些常見(jiàn)問(wèn)題,一起總結教程!

  1. 優(yōu)采云

  優(yōu)采云使用高鐵版或者使用付費版,免費版不能使用,只能使用V9以上版本。如果您沒(méi)有高鐵版本并下訂單,請聯(lián)系我,我會(huì )發(fā)給您一份。高鐵版免安裝。打開(kāi)后,只需輸入用戶(hù)名和密碼即可登錄。

  2. 優(yōu)采云 規則導入

  拿到采集規則的朋友,先導入規則,在B站導入視頻教程,到這里查看:教程傳送門(mén)

  3. 餅干更換

  獲取規則后,先用自己的cookies替換。規則中的 cookie 是很久以前的,可能已經(jīng)過(guò)期。cookie替換視頻教程也在B站。 去這里:教程傳送門(mén)

  除了視頻版,還有文字版批量添加。教程在這里:文字教程傳送門(mén)

  4.數據處理問(wèn)題

  

  有的朋友拿到規則后說(shuō)采集的數據我不要html代碼,可以刪除嗎?是的,在內容 采集 標記中,只需刪除所有 html 代碼。這是優(yōu)采云的基本操作,需要自己去學(xué)習。

  你可以在這里查看相關(guān)教程:教程1傳送門(mén)教程2傳送門(mén)

  5. 優(yōu)采云 發(fā)布問(wèn)題

  優(yōu)采云 可以在本地發(fā)布,也可以發(fā)布到 網(wǎng)站。發(fā)布到網(wǎng)站時(shí),需要配置發(fā)布模塊。配置發(fā)布模塊后,即可在線(xiàn)發(fā)布。

  6. 優(yōu)采云請求速度問(wèn)題

  今日頭條搜索詞的采集規則只能在單線(xiàn)程中以3-5秒的間隔運行。如果需要多線(xiàn)程,需要掛多臺電腦運行,優(yōu)采云的請求速度不建議調整,按照我的默認速度比較穩定,測試了很久。

  7.定時(shí)任務(wù),定時(shí)任務(wù)

  

  掛機采集,定時(shí)任務(wù)設置教程,在B站看視頻:教程傳送門(mén)

  8.采集啟動(dòng)了,為什么沒(méi)有發(fā)布數據

  啟動(dòng)任務(wù)時(shí),先勾選三個(gè)框,然后右鍵點(diǎn)擊規則啟動(dòng)。采集 規則運行后,將在最后發(fā)布。如果我們要和采集同時(shí)發(fā)布,上圖中有一個(gè)發(fā)布。相關(guān)的,可以在release相關(guān)中打開(kāi)side采集同時(shí)發(fā)布,前提是必須設置release。

  9.我想設置3分鐘發(fā)3篇,怎么設置?

  這里有一個(gè)知識點(diǎn),你得睜大眼睛看。首先,如果我們在采集之后設置最后釋放的數據,那么我們的數據釋放間隔會(huì )按照上圖中的釋放線(xiàn)程和間隔進(jìn)行;其次,如果我們設置為采集時(shí)發(fā)布,那么上圖中我們設置的發(fā)布間隔會(huì )自動(dòng)失效,采集規則會(huì )按照采集的間隔發(fā)布,這里必須要明白。, 而采集 根據采集 的間隔自動(dòng)釋放規則。

  10.我要設置1個(gè)字采集如何設置1條數據?

  對于一級URL的提取規則,在其前面添加一個(gè)(*)。有必要明確一級URL的提取規則在哪里。起始地址為0級URL,即列表頁(yè)規則。一級URL是內容頁(yè)面的URL,一級URL的抽取規則是抽取內容頁(yè)面的URL。

  今天總結的問(wèn)題可以解決我們遇到的90%的問(wèn)題。我們必須仔細閱讀。已經(jīng)整理得很詳細了。以后有朋友遇到新問(wèn)題,會(huì )再補充。再次感謝您的支持~

  解讀:爬蟲(chóng)軟件爬取公開(kāi)網(wǎng)絡(luò )數據案例(以大眾點(diǎn)評為例)

  選擇邯鄲:

  點(diǎn)擊食物:

  選擇任何商業(yè)區:

  選擇商家:

  我們發(fā)現這些網(wǎng)址非常有規律,這些規律將幫助我們抓取數據!

  讓我們再次查看任何頁(yè)面的源代碼

  我們觀(guān)察各個(gè)部分的分布位置,這樣會(huì )縮小我們爬取的范圍,加快爬取的速度。

  2. 網(wǎng)站采集

  打開(kāi) 優(yōu)采云采集器 軟件。

  新任務(wù)。

  我們發(fā)現第一步是設置URL采集規則,這是非常重要的一步,會(huì )關(guān)系到我們采集的數據量。

  我們發(fā)現我們爬取的數據都在商家詳情頁(yè):

  所以,讓我們想辦法進(jìn)入這個(gè)頁(yè)面!

  這里我選擇按業(yè)務(wù)區域爬?。ㄟ@樣可以細化數據,也可以根據行政區域、業(yè)務(wù)類(lèi)型,甚至不選擇條件)

  我們選擇一個(gè)商圈作為起始爬取地址。

  我們會(huì )發(fā)現這個(gè)頁(yè)面有15個(gè)商家!

  每個(gè)商家都會(huì )對應一個(gè)連接。如果選擇單連接,只會(huì )爬取15條數據,所以需要想辦法解決分頁(yè)問(wèn)題。

  我們觀(guān)察第二頁(yè)和第三頁(yè)的連接:

  顯然,前面是唯一不變的,而后面的頁(yè)碼在變化。

  單擊向導添加>>批量 URL

  

  將頁(yè)碼設置為地址參數,從2中選擇,每次加1,共14項。

  我們可以通過(guò)閱讀下面看到我們想看到的鏈接。

  點(diǎn)擊網(wǎng)址采集Test,你會(huì )得到如下結果:

  我們采集到15頁(yè),每頁(yè)采集到15條數據。這就是我們想要的!

  3. 內容采集

  在第二部分中,我們將設置 content采集 規則。

  這里我們要采集的數據是:經(jīng)度、緯度、商家名稱(chēng)、位置信息、品味、環(huán)境、服務(wù)、評論數、人均消費。單獨設置。

  我們先觀(guān)察源碼中各個(gè)部分的特點(diǎn),然后填寫(xiě)開(kāi)始和結束字符串。

  注意,我們必須保證起始字符串是唯一的,否則會(huì )選擇第一個(gè)進(jìn)行攔截。

  我們先看JS的這一段,里面收錄了大部分的數據。

  經(jīng)度

  公司名稱(chēng)

  地點(diǎn)信息

  我們來(lái)看看下面的源碼比較有特點(diǎn)

  品嘗

  評論數

  人均消費

  

  到這里的內容采集規則的基本設置就完成了,我們來(lái)測試一個(gè)數據:

  測試成功!

  4. 內容發(fā)布

  內容發(fā)布是為了輸出采集好的數據。這里的免費版只支持導出為txt。

  為了方便轉換為excel,我們設置如下規則:

  標簽之間用英文逗號分隔,每條數據都添加一個(gè)換行符。

  基本設置完成,點(diǎn)擊右下角保存退出。

  啟動(dòng)數據采集 并導出!

  txt 到 excel

  下面是我們導出的txt數據

  看起來(lái)亂七八糟,用起來(lái)不方便,所以我們保存為excel

  打開(kāi)excel,點(diǎn)擊打開(kāi)文件,選擇所有文件,找到我們的txt

  選擇分隔符>>逗號分隔

  點(diǎn)擊Finish得到我們想要的數據格式!

  有了這些數據,我們就可以開(kāi)始我們的數據可視化之旅了!

  分類(lèi):

  技術(shù)要點(diǎn):

  相關(guān)文章:

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区