網(wǎng)頁(yè)抓取工具:一個(gè)簡(jiǎn)單的文章采集示例 (1)
優(yōu)采云 發(fā)布時(shí)間: 2020-04-18 09:53
網(wǎng)頁(yè)抓取工具:一個(gè)簡(jiǎn)單的文章采集示例 通過(guò)采集網(wǎng)頁(yè)抓取工具列車(chē)采集器官網(wǎng)的 faq 為例來(lái)說(shuō)明采集器采集的原理和 過(guò)程。 本例以 演示地址網(wǎng)站文章采集軟件, 以列車(chē)采集器 V9 為工具 進(jìn)行示例說(shuō)明。 (1)新建個(gè)采集規則 選擇一個(gè)分組上右擊,選擇“新建任務(wù)”,如下圖:(2)添加起始網(wǎng)址 在這里我們須要采集 5 頁(yè)數據。 分析網(wǎng)址變量規律 第一頁(yè)地址: 第二頁(yè)地址: 第三頁(yè)地址: 由此我們可以推斷出 p=后的數字就是分頁(yè)的意思,我們用[地址參數]表示: 所以設置如下:地址格式:把變化的分頁(yè)數字用[地址參數]表示。 數字變化:從 1 開(kāi)始文章采集,即第一頁(yè);每次遞增 1,即每次分頁(yè)的變化規律數字; 共 5 項,即一共采集 5 頁(yè)。 預覽:采集器會(huì )根據前面設置的生成一部分網(wǎng)址,讓你來(lái)判讀添加的是否正確。 然后確定即可 (3)[常規模式]獲取內容網(wǎng)址 常規模式:該模式默認抓取一級地址,即從起始頁(yè)源代碼中獲取到內容頁(yè) A 鏈 接。 在這里給你們演示用 自動(dòng)獲取地址鏈接 +設置區域 的 方式來(lái)獲取。 查看頁(yè)面源代碼找到文章地址所在的區域:設置如下: 注:更詳盡的剖析說(shuō)明可以參考本指南: 操作指南 > 軟件操作 > 網(wǎng)址采集規則 > 獲取內容網(wǎng)址點(diǎn)擊網(wǎng)址采集測試,看看測試療效(3)內容采集網(wǎng)址 以 為例講解標簽采集 注:更詳盡的剖析說(shuō)明可以下載參考官網(wǎng)的用戶(hù)指南。
操作指南 > 軟件操作 > 內容采集規則 > 標簽編輯 我們首先查看它的頁(yè)面源代碼網(wǎng)站文章采集軟件,找到我們“標題”所在位置的代碼:<title>導入 Excle 是跳出對話(huà)框~打開(kāi) Excle 出錯 - 火車(chē)采集器幫助中心</title>分析得出: 開(kāi)頭字符串為:<title> 結尾字符串為:</title> 數據處理——內容替換/排除:需要把- 火車(chē)采集器幫助中心 給替換為空內容標簽的設置原理也是類(lèi)似的,找到內容所在源碼中的位置剖析得出: 開(kāi)頭字符串為:<div id="cmsContent"> 結尾字符串為:</div> 數據處理——HTML 標簽排除:把不需要的 A 鏈接等過(guò)濾再設置個(gè)“來(lái)源”字段這樣一個(gè)簡(jiǎn)單的文章采集規則就做好了, 使用通用的網(wǎng)頁(yè)抓取工具列車(chē)采集器并 按照這個(gè)示例的步驟就可以進(jìn)行其它類(lèi)型數據采集的擴充啦。