分享:優(yōu)采云采集頭條文章采集規則使用說(shuō)明!【匯總篇】
優(yōu)采云 發(fā)布時(shí)間: 2022-10-30 06:23分享:優(yōu)采云采集頭條文章采集規則使用說(shuō)明!【匯總篇】
陶小白的優(yōu)采云采集規則寫(xiě)了很久,很多朋友都在用。由于用戶(hù)群不同,部分用戶(hù)對優(yōu)采云不熟悉,會(huì )造成很多問(wèn)題。今天為大家總結一些常見(jiàn)問(wèn)題,一起總結教程!
1. 優(yōu)采云
優(yōu)采云使用高鐵版或者使用付費版,免費版不能使用,只能使用V9以上版本。如果您沒(méi)有高鐵版本并下訂單,請聯(lián)系我,我會(huì )發(fā)給您一份。高鐵版免安裝。打開(kāi)后,只需輸入用戶(hù)名和密碼即可登錄。
2. 優(yōu)采云 規則導入
拿到采集規則的朋友,先導入規則,在B站導入視頻教程,到這里查看:教程傳送門(mén)
3. 餅干更換
獲取規則后,先用自己的cookies替換。規則中的 cookie 是很久以前的,可能已經(jīng)過(guò)期。cookie替換視頻教程也在B站。 去這里:教程傳送門(mén)
除了視頻版,還有文字版批量添加。教程在這里:文字教程傳送門(mén)
4.數據處理問(wèn)題
有的朋友拿到規則后說(shuō)采集的數據我不要html代碼,可以刪除嗎?是的,在內容 采集 標記中,只需刪除所有 html 代碼。這是優(yōu)采云的基本操作,需要自己去學(xué)習。
你可以在這里查看相關(guān)教程:教程1傳送門(mén)教程2傳送門(mén)
5. 優(yōu)采云 發(fā)布問(wèn)題
優(yōu)采云 可以在本地發(fā)布,也可以發(fā)布到 網(wǎng)站。發(fā)布到網(wǎng)站時(shí),需要配置發(fā)布模塊。配置發(fā)布模塊后,即可在線(xiàn)發(fā)布。
6. 優(yōu)采云請求速度問(wèn)題
今日頭條搜索詞的采集規則只能在單線(xiàn)程中以3-5秒的間隔運行。如果需要多線(xiàn)程,需要掛多臺電腦運行,優(yōu)采云的請求速度不建議調整,按照我的默認速度比較穩定,測試了很久。
7.定時(shí)任務(wù),定時(shí)任務(wù)
掛機采集,定時(shí)任務(wù)設置教程,在B站看視頻:教程傳送門(mén)
8.采集啟動(dòng)了,為什么沒(méi)有發(fā)布數據
啟動(dòng)任務(wù)時(shí),先勾選三個(gè)框,然后右鍵點(diǎn)擊規則啟動(dòng)。采集 規則運行后,將在最后發(fā)布。如果我們要和采集同時(shí)發(fā)布,上圖中有一個(gè)發(fā)布。相關(guān)的,可以在release相關(guān)中打開(kāi)side采集同時(shí)發(fā)布,前提是必須設置release。
9.我想設置3分鐘發(fā)3篇,怎么設置?
這里有一個(gè)知識點(diǎn),你得睜大眼睛看。首先,如果我們在采集之后設置最后釋放的數據,那么我們的數據釋放間隔會(huì )按照上圖中的釋放線(xiàn)程和間隔進(jìn)行;其次,如果我們設置為采集時(shí)發(fā)布,那么上圖中我們設置的發(fā)布間隔會(huì )自動(dòng)失效,采集規則會(huì )按照采集的間隔發(fā)布,這里必須要明白。, 而采集 根據采集 的間隔自動(dòng)釋放規則。
10.我要設置1個(gè)字采集如何設置1條數據?
對于一級URL的提取規則,在其前面添加一個(gè)(*)。有必要明確一級URL的提取規則在哪里。起始地址為0級URL,即列表頁(yè)規則。一級URL是內容頁(yè)面的URL,一級URL的抽取規則是抽取內容頁(yè)面的URL。
今天總結的問(wèn)題可以解決我們遇到的90%的問(wèn)題。我們必須仔細閱讀。已經(jīng)整理得很詳細了。以后有朋友遇到新問(wèn)題,會(huì )再補充。再次感謝您的支持~
解讀:爬蟲(chóng)軟件爬取公開(kāi)網(wǎng)絡(luò )數據案例(以大眾點(diǎn)評為例)
選擇邯鄲:
點(diǎn)擊食物:
選擇任何商業(yè)區:
選擇商家:
我們發(fā)現這些網(wǎng)址非常有規律,這些規律將幫助我們抓取數據!
讓我們再次查看任何頁(yè)面的源代碼
我們觀(guān)察各個(gè)部分的分布位置,這樣會(huì )縮小我們爬取的范圍,加快爬取的速度。
2. 網(wǎng)站采集
打開(kāi) 優(yōu)采云采集器 軟件。
新任務(wù)。
我們發(fā)現第一步是設置URL采集規則,這是非常重要的一步,會(huì )關(guān)系到我們采集的數據量。
我們發(fā)現我們爬取的數據都在商家詳情頁(yè):
所以,讓我們想辦法進(jìn)入這個(gè)頁(yè)面!
這里我選擇按業(yè)務(wù)區域爬?。ㄟ@樣可以細化數據,也可以根據行政區域、業(yè)務(wù)類(lèi)型,甚至不選擇條件)
我們選擇一個(gè)商圈作為起始爬取地址。
我們會(huì )發(fā)現這個(gè)頁(yè)面有15個(gè)商家!
每個(gè)商家都會(huì )對應一個(gè)連接。如果選擇單連接,只會(huì )爬取15條數據,所以需要想辦法解決分頁(yè)問(wèn)題。
我們觀(guān)察第二頁(yè)和第三頁(yè)的連接:
顯然,前面是唯一不變的,而后面的頁(yè)碼在變化。
單擊向導添加>>批量 URL
將頁(yè)碼設置為地址參數,從2中選擇,每次加1,共14項。
我們可以通過(guò)閱讀下面看到我們想看到的鏈接。
點(diǎn)擊網(wǎng)址采集Test,你會(huì )得到如下結果:
我們采集到15頁(yè),每頁(yè)采集到15條數據。這就是我們想要的!
3. 內容采集
在第二部分中,我們將設置 content采集 規則。
這里我們要采集的數據是:經(jīng)度、緯度、商家名稱(chēng)、位置信息、品味、環(huán)境、服務(wù)、評論數、人均消費。單獨設置。
我們先觀(guān)察源碼中各個(gè)部分的特點(diǎn),然后填寫(xiě)開(kāi)始和結束字符串。
注意,我們必須保證起始字符串是唯一的,否則會(huì )選擇第一個(gè)進(jìn)行攔截。
我們先看JS的這一段,里面收錄了大部分的數據。
經(jīng)度
公司名稱(chēng)
地點(diǎn)信息
我們來(lái)看看下面的源碼比較有特點(diǎn)
品嘗
評論數
人均消費
到這里的內容采集規則的基本設置就完成了,我們來(lái)測試一個(gè)數據:
測試成功!
4. 內容發(fā)布
內容發(fā)布是為了輸出采集好的數據。這里的免費版只支持導出為txt。
為了方便轉換為excel,我們設置如下規則:
標簽之間用英文逗號分隔,每條數據都添加一個(gè)換行符。
基本設置完成,點(diǎn)擊右下角保存退出。
啟動(dòng)數據采集 并導出!
txt 到 excel
下面是我們導出的txt數據
看起來(lái)亂七八糟,用起來(lái)不方便,所以我們保存為excel
打開(kāi)excel,點(diǎn)擊打開(kāi)文件,選擇所有文件,找到我們的txt
選擇分隔符>>逗號分隔
點(diǎn)擊Finish得到我們想要的數據格式!
有了這些數據,我們就可以開(kāi)始我們的數據可視化之旅了!
分類(lèi):
技術(shù)要點(diǎn):
相關(guān)文章: