最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

定向采集功能使用教程完整版

優(yōu)采云 發(fā)布時(shí)間: 2023-11-22 15:47

定向采集,與使用關(guān)鍵詞進(jìn)行采集的主要區別是,它直接抓取目標頁(yè)面或目標網(wǎng)址。提供三種模式:

  1. 跟蹤采集:用戶(hù)提交一個(gè)列表頁(yè)網(wǎng)址,并選擇頁(yè)面上的某些位置的鏈接,采集系統進(jìn)行持續跟蹤,發(fā)現所選區域存在新網(wǎng)址時(shí)進(jìn)行抓取。只跟蹤一個(gè)單獨頁(yè)面,不支持設置翻頁(yè)。
  2. 單次采集:用戶(hù)提交一個(gè)列表頁(yè)網(wǎng)址,并選擇頁(yè)面上的某些位置的鏈接,采集系統進(jìn)行一次性抓取,直到把每個(gè)翻頁(yè)上的歷史文章全部抓取完為止。支持設置翻頁(yè)范圍,系統會(huì )自動(dòng)翻頁(yè)。
  3. URL直采:用戶(hù)提交一系列文章頁(yè)網(wǎng)址,系統直接抓取文章頁(yè)進(jìn)行采集。

目錄:

  1. 跟蹤采集設置教程
  2. 單次采集設置教程
  3. 頭條號百家號定向采集教程
  4. URL直采設置教程

跟蹤采集設置教程:

首先從左側欄找到任務(wù)目標管理,然后點(diǎn)擊定向采集按鈕。輸入任務(wù)名稱(chēng)目標欄目ID(自媒體發(fā)布請填1),文章來(lái)源選擇定向采集。

點(diǎn)擊下面框中跟蹤采集按鈕,輸入要采集的目標網(wǎng)址。注意如果是采集頭條號或百家號文章列表,系統還會(huì )自動(dòng)顯示閱讀量過(guò)濾(請往后看)。

點(diǎn)擊規則設置按鈕,選取要采集的鏈接。

最后,保存即可完成任務(wù)添加。


單次采集設置教程:

單次采集與跟蹤采集主要的不同,體現在翻頁(yè)設置上。首先我們要找到目標網(wǎng)站的頁(yè)碼變量,我們以人民網(wǎng)經(jīng)濟科技欄目為例,先找到頁(yè)碼區

點(diǎn)擊每個(gè)具體頁(yè)碼,看瀏覽器地址欄所顯示的網(wǎng)址:

第1頁(yè):http://finance.people.com.cn/index1.html#fy01
第2頁(yè):http://finance.people.com.cn/index2.html#fy01
第3頁(yè):http://finance.people.com.cn/index3.html#fy01
第4頁(yè):http://finance.people.com.cn/index4.html#fy01
第5頁(yè):http://finance.people.com.cn/index5.html#fy01

可以看到網(wǎng)址有一個(gè)數字在變,而且跟頁(yè)碼相同,就是上面的index1,index2,index3,index4,index5,它就是我們要找到頁(yè)碼變量。在填寫(xiě)定向目標網(wǎng)址時(shí),我們要把這個(gè)頁(yè)碼變量數字替換成{PageNo},如下所示:

http://finance.people.com.cn/index{PageNo}.html#fy01

現在我們把它填到設置中,并填上頁(yè)碼范圍,比如1-5頁(yè),也可以倒著(zhù)填,比如5-1頁(yè)。頁(yè)碼順序決定采集順序。但注意,一條目標網(wǎng)址最多可翻100頁(yè),超過(guò)100頁(yè)的可以另外再添加一條,然后翻頁(yè)范圍寫(xiě)為101-200,以此類(lèi)推。

事實(shí)上,我們還提供了一個(gè)更為簡(jiǎn)便的方法,可以自動(dòng)識別上述分析過(guò)程。您只需要把第一頁(yè)的原始網(wǎng)址粘貼進(jìn)去,點(diǎn)一下旁邊的幫我填按鈕,系統即會(huì )嘗試自動(dòng)識別頁(yè)碼變量,并幫你完成修改和填寫(xiě),甚至會(huì )自動(dòng)識別頁(yè)碼范圍。您只需確認一下是否正確,適當修改頁(yè)碼范圍即可。

單次采集的后續設置,即規則設置,與跟蹤采集完全一樣,請參照跟蹤采集設置教程。


頭條號百家號定向采集教程:

以頭條號為例,首先要找到目標賬號的主頁(yè)。找到目標賬號任意一篇文章,點(diǎn)擊賬號頭像即可進(jìn)入賬號主頁(yè)。

點(diǎn)擊文章或者微頭條,復制瀏覽器地址欄整個(gè)網(wǎng)址,粘貼到定向目標網(wǎng)址(不用去找頁(yè)碼變量,不用{PageNo}),并填上頁(yè)碼范圍。注意頭條號每頁(yè)是20條文章,最多可采100頁(yè),也就是2000篇。

注意上圖中出現了閱讀量過(guò)濾的設置,系統只有在檢測到您所填網(wǎng)址為頭條號、百家號時(shí),才會(huì )顯示此輸入框。

頭條號支持文章和微頭條分別采集,而百家號不支持區分文章和動(dòng)態(tài),只能選全部。

以上主要是講頭條號的單次采集,即采集歷史文章,但如果您需要跟蹤采集目標賬號的更新文章,也是可以的。百家號同理。


URL直采設置教程:

當某些時(shí)候我們手上已經(jīng)有很多文章頁(yè)網(wǎng)址時(shí),可以使用URL直采功能,把文章頁(yè)網(wǎng)址直接導入系統進(jìn)行采集。添加一個(gè)定向采集的任務(wù),但不要添加任何定向目標,直接保存,完成任務(wù)創(chuàng )建。

(其實(shí)上述步驟只是為了創(chuàng )建一個(gè)定向任務(wù),是否添加定向目標,都不影響URL直采)

在任務(wù)列表找到新添加的任務(wù),點(diǎn)擊定向設置按鈕,再點(diǎn)擊URL直采按鈕,彈出網(wǎng)址導入頁(yè)面。

直接把您的網(wǎng)址按照每行一個(gè)的格式粘貼到彈出框中即可,同一站點(diǎn)下最多保有5萬(wàn)個(gè)直采網(wǎng)址。當存在直采URL時(shí),會(huì )優(yōu)先抓取直采URL,順序隨機,之后如果任務(wù)有定向采集目標,會(huì )繼續執行。系統會(huì )自動(dòng)刪除超過(guò)90天沒(méi)有被抓取的URL。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区