定向采集功能使用教程完整版
優(yōu)采云 發(fā)布時(shí)間: 2023-11-22 15:47定向采集,與使用關(guān)鍵詞進(jìn)行采集的主要區別是,它直接抓取目標頁(yè)面或目標網(wǎng)址。提供三種模式:
跟蹤采集
:用戶(hù)提交一個(gè)列表頁(yè)網(wǎng)址,并選擇頁(yè)面上的某些位置的鏈接,采集系統進(jìn)行持續跟蹤
,發(fā)現所選區域存在新網(wǎng)址
時(shí)進(jìn)行抓取。只跟蹤一個(gè)單獨頁(yè)面,不支持設置翻頁(yè)。單次采集
:用戶(hù)提交一個(gè)列表頁(yè)網(wǎng)址,并選擇頁(yè)面上的某些位置的鏈接,采集系統進(jìn)行一次性抓取
,直到把每個(gè)翻頁(yè)上的歷史文章
全部抓取完為止。支持設置翻頁(yè)范圍,系統會(huì )自動(dòng)翻頁(yè)
。URL直采
:用戶(hù)提交一系列文章頁(yè)網(wǎng)址,系統直接抓取文章頁(yè)
進(jìn)行采集。
目錄:
- 跟蹤采集設置教程
- 單次采集設置教程
- 頭條號百家號定向采集教程
- URL直采設置教程
跟蹤采集設置教程:
首先從左側欄找到任務(wù)目標管理
,然后點(diǎn)擊定向采集
按鈕。輸入任務(wù)名稱(chēng)
和目標欄目ID
(自媒體發(fā)布請填1),文章來(lái)源選擇定向采集
。
點(diǎn)擊下面框中跟蹤采集
按鈕,輸入要采集的目標網(wǎng)址。注意如果是采集頭條號或百家號文章列表,系統還會(huì )自動(dòng)顯示閱讀量過(guò)濾(請往后看)。
點(diǎn)擊規則設置
按鈕,選取要采集的鏈接。
最后,保存即可完成任務(wù)添加。
單次采集設置教程:
單次采集與跟蹤采集主要的不同,體現在翻頁(yè)設置
上。首先我們要找到目標網(wǎng)站的頁(yè)碼變量
,我們以人民網(wǎng)經(jīng)濟科技欄目為例,先找到頁(yè)碼區
:
點(diǎn)擊每個(gè)具體頁(yè)碼,看瀏覽器地址欄所顯示的網(wǎng)址:
第1頁(yè):http://finance.people.com.cn/index1.html#fy01
第2頁(yè):http://finance.people.com.cn/index2.html#fy01
第3頁(yè):http://finance.people.com.cn/index3.html#fy01
第4頁(yè):http://finance.people.com.cn/index4.html#fy01
第5頁(yè):http://finance.people.com.cn/index5.html#fy01
可以看到網(wǎng)址有一個(gè)數字在變,而且跟頁(yè)碼相同,就是上面的index1
,index2
,index3
,index4
,index5
,它就是我們要找到頁(yè)碼變量。在填寫(xiě)定向目標網(wǎng)址時(shí),我們要把這個(gè)頁(yè)碼變量數字替換成{PageNo}
,如下所示:
http://finance.people.com.cn/index{PageNo}.html#fy01
現在我們把它填到設置中,并填上頁(yè)碼范圍,比如1-5頁(yè),也可以倒著(zhù)填,比如5-1頁(yè)。頁(yè)碼順序決定采集順序
。但注意,一條目標網(wǎng)址最多可翻100頁(yè),超過(guò)100頁(yè)的可以另外再添加一條
,然后翻頁(yè)范圍寫(xiě)為101-200,以此類(lèi)推。
事實(shí)上,我們還提供了一個(gè)更為簡(jiǎn)便的方法
,可以自動(dòng)識別上述分析過(guò)程。您只需要把第一頁(yè)的原始網(wǎng)址粘貼進(jìn)去,點(diǎn)一下旁邊的幫我填
按鈕,系統即會(huì )嘗試自動(dòng)識別頁(yè)碼變量,并幫你完成修改和填寫(xiě),甚至會(huì )自動(dòng)識別頁(yè)碼范圍。您只需確認一下是否正確,適當修改頁(yè)碼范圍即可。
單次采集的后續設置,即規則設置,與跟蹤采集完全一樣
,請參照跟蹤采集設置教程。
頭條號百家號定向采集教程:
以頭條號為例,首先要找到目標賬號的主頁(yè)。找到目標賬號任意一篇文章,點(diǎn)擊賬號頭像即可進(jìn)入賬號主頁(yè)。
點(diǎn)擊文章
或者微頭條
,復制瀏覽器地址欄整個(gè)網(wǎng)址,粘貼到定向目標網(wǎng)址(不用去找頁(yè)碼變量,不用{PageNo}
),并填上頁(yè)碼范圍。注意頭條號每頁(yè)是20條文章,最多可采100頁(yè),也就是2000篇。
注意上圖中出現了閱讀量過(guò)濾
的設置,系統只有在檢測到您所填網(wǎng)址為頭條號、百家號
時(shí),才會(huì )顯示此輸入框。
頭條號支持文章和微頭條
分別采集,而百家號不支持區分文章和動(dòng)態(tài)
,只能選全部。
以上主要是講頭條號的單次采集
,即采集歷史文章,但如果您需要跟蹤采集
目標賬號的更新文章,也是可以的。百家號同理。
URL直采設置教程:
當某些時(shí)候我們手上已經(jīng)有很多文章頁(yè)網(wǎng)址時(shí),可以使用URL直采功能,把文章頁(yè)網(wǎng)址直接導入系統進(jìn)行采集。添加一個(gè)定向采集的任務(wù),但不要添加任何定向目標,直接保存,完成任務(wù)創(chuàng )建。
(其實(shí)上述步驟只是為了創(chuàng )建一個(gè)定向任務(wù),是否添加定向目標,都不影響URL直采)
在任務(wù)列表找到新添加的任務(wù),點(diǎn)擊定向設置
按鈕,再點(diǎn)擊URL直采
按鈕,彈出網(wǎng)址導入頁(yè)面。
直接把您的網(wǎng)址按照每行一個(gè)
的格式粘貼到彈出框中即可,同一站點(diǎn)下最多保有5萬(wàn)個(gè)
直采網(wǎng)址。當存在直采URL時(shí),會(huì )優(yōu)先抓取直采URL
,順序隨機
,之后如果任務(wù)有定向采集目標,會(huì )繼續執行。系統會(huì )自動(dòng)刪除超過(guò)90天
沒(méi)有被抓取的URL。